Instalação dos packages.
install.packages("tidyverse")
install.packages("arules")
install.packages("data.table")
install.packages("summarytools")
install.packages("ggpubr")
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("limma")
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("Glimma")
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("edgeR")
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("org.Hs.eg.db")
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("GO.db")
install.packages("car")
install.packages("caret")
install.packages("RColorBrewer")
install.packages("gplots")
install.packages("FactoMineR")
install.packages("factoextra")Importação dos packages.
library(readr)
library(readxl)
library(data.table)
library(tidyverse)
library(readr)
library(arules)
library(dplyr)
library(summarytools)
library(ggpubr)
library(limma)
library(Glimma)
library(edgeR)
library(org.Hs.eg.db)
library(GO.db)
library(car)
library(caret)
library(RColorBrewer)
library(gplots)
library(FactoMineR)
library(factoextra)#dataset contagens
raw_counts <- read.csv("CCLE_RNAseq_reads.csv")
#dataset mutações
CCLE_mutations <- read.csv("CCLE_mutations.csv")
#dataset drug resistance
drug_response <- read.csv("primary-screen-replicate-collapsed-logfold-change.csv")
#dataset com as informações das linhagens
sample_info <- read_excel("sample_info.xlsx")
#dataset com as informações das drugs
drug_info <- read.csv("primary-screen-replicate-collapsed-treatment-info.csv")No âmbito do trabalho da UC Extração de Conhecimento de Bases de Dados Biológicas, foram extraídos 4 datasets da base de dados DepMap. A base de dados contém inúmeros datasets, e o seu objetivo é disponibilizar vários tipos de dados relativos a linhagens celulares cancerígenas de uma forma opensource. Para tal recorre ao projeto Achilles, que tem como objetivo identificar e catalogar a essencialidade genética, transversal a centenas de linhagens de células cancerígenas. Recorre também ao projeto CCLE (Cancer Cell Line Encyclopedia), que tem como objetivo realizar a caracterização genética e farmacológica de uma vasta quantidade de modelos de cancro humano.
Foi-nos proposto utilizar um dataset de expressão genética obtido por RNAseq para genes codificantes de proteínas (raw_counts), sendo este o nosso dataset primário. Mais especificamente, o dataset utilizado corresponde a contagens cruas provenientes do projeto Achilles, e dados de caracterização genética do projeto CCLE.
Utilizamos também um dataset baseado num Mutation Annotation Format (MAF), isto é, um conjunto de informações de mutações provenientes de ficheiros “VCF” sendo gerados ao nível de projetos. Estas anotações provém dos mesmos projetos do dataset de expressão. Este dataset (CCLE_mutations) corresponde ao nosso dataset secundário.
Como metadado utilizamos o dataset drug_response que resulta de uma tentativa de acessar o potencial anti-cancerígeno de um conjunto de fármacos não oncológicos, sobre linhagens cancerígenas humanas. Este dataset corresponde à viabilidade de linhagens cancerígenas humanas quando expostas aos compostos referidos.
Por último, utilizamos o dataset sample_info que corresponde a informações variadas sobre as linhagens a que se referem os restantes datasets.
## [1] 1379 52440
## 'data.frame': 1379 obs. of 52440 variables:
## $ X : chr "ACH-001113" "ACH-001289" "ACH-001339" "ACH-001538" ...
## $ TSPAN6..ENSG00000000003. : num 2383 2529 1552 5657 22806 ...
## $ TNMD..ENSG00000000005. : num 0 13 0 0 0 5 0 0 0 0 ...
## $ DPM1..ENSG00000000419. : num 4766 3857 8057 6056 4702 ...
## $ SCYL3..ENSG00000000457. : num 962 555 849 1057 1109 ...
## $ C1orf112..ENSG00000000460. : num 1518 833 2512 656 1500 ...
## $ FGR..ENSG00000000938. : num 2 0 2 0 98 0 1 2 1 3 ...
## $ CFH..ENSG00000000971. : num 162.8 19.1 201.8 7713 31296 ...
## $ FUCA2..ENSG00000001036. : num 565 1000 13834 7928 5914 ...
## $ GCLC..ENSG00000001084. : num 9078 1758 2189 3473 22393 ...
## $ NFYA..ENSG00000001167. : num 4280 1684 2892 3378 4773 ...
## $ STPG1..ENSG00000001460. : num 902 192 853 555 349 ...
## $ NIPAL3..ENSG00000001461. : num 3364 1555 2923 4916 1127 ...
## $ LAS1L..ENSG00000001497. : num 2276 2206 2436 4630 4639 ...
## $ ENPP4..ENSG00000001561. : num 702 1841 210 2562 245 ...
## $ SEMA3F..ENSG00000001617. : num 985 127 42 1173 10801 ...
## $ CFTR..ENSG00000001626. : num 0 2 7 4 6 ...
## $ ANKIB1..ENSG00000001629. : num 7618 7225 5936 4261 6102 ...
## $ CYP51A1..ENSG00000001630. : num 10875 13374 8497 10992 19852 ...
## $ KRIT1..ENSG00000001631. : num 4151 2423 3843 1604 3140 ...
## $ RAD52..ENSG00000002016. : num 723 348 480 378 685 ...
## $ MYH16..ENSG00000002079. : num 5 0 1 177 8 ...
## $ BAD..ENSG00000002330. : num 812 996 792 1631 2862 ...
## $ LAP3..ENSG00000002549. : num 1775 4528 7263 3411 5468 ...
## $ CD99..ENSG00000002586. : num 1921 3205 16483 5631 8217 ...
## $ HS3ST1..ENSG00000002587. : num 23 17 156 2364 2924 ...
## $ AOC1..ENSG00000002726. : num 2 1 9 5 1 ...
## $ WNT16..ENSG00000002745. : num 4 21 11 10 1 7 9 109 9 27 ...
## $ HECW1..ENSG00000002746. : num 235 40 3 10 1 1 11 5 3 1 ...
## $ MAD1L1..ENSG00000002822. : num 523 428 3075 1179 2498 ...
## $ LASP1..ENSG00000002834. : num 6268 4195 18445 22524 32144 ...
## $ SNX11..ENSG00000002919. : num 1489 1412 2563 1214 1823 ...
## $ TMEM176A..ENSG00000002933. : num 0 1 6 2 0 ...
## $ M6PR..ENSG00000003056. : num 14879 10859 21628 13951 18353 ...
## $ KLHL13..ENSG00000003096. : num 4217 610 18 1 625 ...
## $ CYP26B1..ENSG00000003137. : num 987 14 67 242 115 ...
## $ ICA1..ENSG00000003147. : num 98 569 300 1078 3162 ...
## $ DBNDD1..ENSG00000003249. : num 225 1041 1032 839 564 ...
## $ ALS2..ENSG00000003393. : num 4261 2512 3562 1331 2762 ...
## $ CASP10..ENSG00000003400. : num 362 21 214 1092 802 ...
## $ CFLAR..ENSG00000003402. : num 3717 2329 3133 2825 4989 ...
## $ TFPI..ENSG00000003436. : num 5 4 1524 615 85 ...
## $ NDUFAF7..ENSG00000003509. : num 1518 844 1307 996 946 ...
## $ RBM5..ENSG00000003756. : num 3522 6354 5124 5651 13458 ...
## $ MTMR7..ENSG00000003987. : num 67.5 998.1 99.2 16.8 281.1 ...
## $ SLC7A2..ENSG00000003989. : num 627 948 778 463 8211 ...
## $ ARF5..ENSG00000004059. : num 3937 5066 4865 5098 8778 ...
## $ SARM1..ENSG00000004139. : num 910 560 794 490 1645 ...
## $ POLDIP2..ENSG00000004142. : num 4473 5112 8044 4381 8407 ...
## $ PLXND1..ENSG00000004399. : num 3121 716 16777 118 727 ...
## $ AK2..ENSG00000004455. : num 5782 5588 21212 17554 14712 ...
## $ CD38..ENSG00000004468. : num 17 5 66 15 21 61 29 12 4 27 ...
## $ FKBP4..ENSG00000004478. : num 13558 9604 8382 16632 15173 ...
## $ KDM1A..ENSG00000004487. : num 4516 6694 6924 8978 7596 ...
## $ RBM6..ENSG00000004534. : num 4403 4151 3612 4622 11895 ...
## $ CAMKK1..ENSG00000004660. : num 1975 120 389 371 1307 ...
## $ RECQL..ENSG00000004700. : num 6428 3426 11936 5962 4192 ...
## $ VPS50..ENSG00000004766. : num 1960 1726 2663 1238 1398 ...
## $ HSPB6..ENSG00000004776. : num 13 6.35 18.66 20.62 2 ...
## $ ARHGAP33..ENSG00000004777. : num 456 587 161 91 631 ...
## $ NDUFAB1..ENSG00000004779. : num 1726 2417 3305 5642 4286 ...
## $ PDK4..ENSG00000004799. : num 0 0 347 837 224 ...
## $ SLC22A16..ENSG00000004809. : num 1 4 3 1 0 0 0 1 1 1 ...
## $ ZMYND10..ENSG00000004838. : num 23 79 24 6 15 35 9 120 268 23 ...
## $ ABCB5..ENSG00000004846. : num 51 0 136 0 3 6 5 7 1 2 ...
## $ ARX..ENSG00000004848. : num 1 33 8 0 6 3 877 1 1 8 ...
## $ SLC25A13..ENSG00000004864. : num 758 2449 6220 2542 5473 ...
## $ ST7..ENSG00000004866. : num 791 1904 2463 1532 1639 ...
## $ CDC27..ENSG00000004897. : num 12186 6558 13839 8543 5757 ...
## $ SLC4A1..ENSG00000004939. : num 7 0 0 2 1 0 0 0 0 10 ...
## $ CALCR..ENSG00000004948. : num 6 27 2 3 5 2 10 0 0 11 ...
## $ HCCS..ENSG00000004961. : num 1049 1480 2550 2870 2552 ...
## $ DVL2..ENSG00000004975. : num 1615 3214 4376 1723 3177 ...
## $ PRSS22..ENSG00000005001. : num 13 0 6 2506 1169 ...
## $ UPF1..ENSG00000005007. : num 4928 3025 3969 4581 12645 ...
## $ SKAP2..ENSG00000005020. : num 1406 91 11509 12761 4104 ...
## $ SLC25A5..ENSG00000005022. : num 24646 15202 42244 43089 49243 ...
## $ MCUB..ENSG00000005059. : num 190 5360 1038 1176 1533 ...
## $ HOXA11..ENSG00000005073. : num 16.4 2 21 2 1013.4 ...
## $ POLR2J..ENSG00000005075. : num 2455 2809 4882 1685 4629 ...
## $ DHX33..ENSG00000005100. : num 6164 2193 5646 2293 4776 ...
## $ MEOX1..ENSG00000005102. : num 1 0 0 0 0 4 1 0 2 1 ...
## $ THSD7A..ENSG00000005108. : num 5 50 16 3 50 ...
## $ LIG3..ENSG00000005156. : num 3678 6501 3007 1473 3835 ...
## $ RPAP3..ENSG00000005175. : num 4348 2819 4411 2815 3401 ...
## $ ACSM3..ENSG00000005187. : num 35.6 0.6 16.8 23.9 179.7 ...
## $ REXO5..ENSG00000005189. : num 321 1564 862 1293 586 ...
## $ CIAPIN1..ENSG00000005194. : num 3276 2750 5890 3176 4350 ...
## $ SPPL2B..ENSG00000005206. : num 1333 539 903 783 3976 ...
## $ FAM214B..ENSG00000005238. : num 1219 1211 1786 945 174 ...
## $ COPZ2..ENSG00000005243. : num 58 0 2199 387 4 ...
## $ PRKAR2B..ENSG00000005249. : num 578 2134 3902 102 110 ...
## $ MSL3..ENSG00000005302. : num 1107 560 1492 2569 2880 ...
## $ CREBBP..ENSG00000005339. : num 5318 3030 3435 3295 5221 ...
## $ TSPOAP1..ENSG00000005379. : num 1 0 4 12 72 280 30 578 912 7 ...
## $ MPO..ENSG00000005381. : num 0 0 0 0 3 29 4 57 88 9 ...
## $ PON1..ENSG00000005421. : num 0 1 4 0 2 0 19 2 0 1 ...
## $ GCFC2..ENSG00000005436. : num 961 1459 1897 1949 1713 ...
## $ WDR54..ENSG00000005448. : num 445 614 1416 2798 1224 ...
## [list output truncated]
O dataset raw_counts possui \(1379\) linhas, que correspondem a linhagens cancerígenas humanas, e \(52440\) colunas, que correspondem a genes. Associados a cada uma das variáveis encontram-se dados de expressão genética provenientes de contagens de RNAseq. As linhagens estão identificadas pelo seu “DepMapID” e os genes são identificados pelo seu “Hugo Symbol” seguido do seu “ENSEMBL id” delimitado por parêntesis. Todas as variáveis são númericas, tirando a variável “X1” que corresponde às labels das linhagens.
## [1] 1288288 32
## 'data.frame': 1288288 obs. of 32 variables:
## $ Hugo_Symbol : chr "VPS13D" "AADACL4" "IFNLR1" "TMEM57" ...
## $ Entrez_Gene_Id : int 55187 343066 163702 55219 7579 5453 23139 115361 10451 100288142 ...
## $ NCBI_Build : int 37 37 37 37 37 37 37 37 37 37 ...
## $ Chromosome : chr "1" "1" "1" "1" ...
## $ Start_position : int 12359347 12726308 24484172 25785018 33954141 38512139 46498028 89657103 108247170 148346689 ...
## $ End_position : int 12359347 12726322 24484172 25785019 33954141 38512139 46498028 89657103 108247170 148346689 ...
## $ Strand : chr "+" "+" "+" "+" ...
## $ Variant_Classification: chr "Nonsense_Mutation" "In_Frame_Del" "Silent" "Frame_Shift_Ins" ...
## $ Variant_Type : chr "SNP" "DEL" "SNP" "INS" ...
## $ Reference_Allele : chr "C" "CTGGCGTGACGCCAT" "G" "-" ...
## $ Tumor_Seq_Allele1 : chr "A" "-" "A" "A" ...
## $ dbSNP_RS : chr "" "rs58218425|rs139261871|rs369427733|rs560787141" "" "" ...
## $ dbSNP_Val_Status : chr "" "byFrequency" "" "" ...
## $ Genome_Change : chr "g.chr1:12359347C>A" "g.chr1:12726308_12726322delCTGGCGTGACGCCAT" "g.chr1:24484172G>A" "g.chr1:25785018_25785019insA" ...
## $ Annotation_Transcript : chr "ENST00000358136.3" "ENST00000376221.1" "ENST00000327535.1" "ENST00000374343.4" ...
## $ DepMap_ID : chr "ACH-000001" "ACH-000001" "ACH-000001" "ACH-000001" ...
## $ cDNA_Change : chr "c.6122C>A" "c.786_800delCTGGCGTGACGCCAT" "c.1011C>T" "c.789_790insA" ...
## $ Codon_Change : chr "c.(6121-6123)tCa>tAa" "c.(784-801)tcctggcgtgacgccatc>tcc" "c.(1009-1011)ggC>ggT" "c.(790-792)aaafs" ...
## $ Protein_Change : chr "p.S2041*" "p.WRDAI263del" "p.G337G" "p.K264fs" ...
## $ isDeleterious : chr "True" "False" "False" "True" ...
## $ isTCGAhotspot : chr "False" "False" "False" "False" ...
## $ TCGAhsCnt : num NA NA NA 0 NA 0 0 NA NA 0 ...
## $ isCOSMIChotspot : chr "False" "False" "False" "False" ...
## $ COSMIChsCnt : num 0 3 0 0 0 0 0 0 0 0 ...
## $ ExAC_AF : num NA NA NA NA NA ...
## $ Variant_annotation : chr "damaging" "other non-conserving" "silent" "damaging" ...
## $ CGA_WES_AC : chr "34:213" "57:141" "118:0" "" ...
## $ HC_AC : chr "" "" "" "" ...
## $ RD_AC : chr "" "" "" "" ...
## $ RNAseq_AC : chr "" "" "" "6:28" ...
## $ SangerWES_AC : chr "" "" "" "" ...
## $ WGS_AC : chr "" "" "" "" ...
O dataset CCLE_mutations possui \(1288288\) linhas, que correspondem a genes que sofreram mutações, e \(32\) colunas, que correspondem aos seus descritivos. Contém identificadores (“Entrez_Gene_Id”, “Hugo_Symbol”, “DepMap_ID”, entre outros) e informações sobre a mutação (tipo, posição, entre outros). As primeiras 11 variáveis correspondem a uma parte dos contéudos do formato MAF, tendo sido as restantes variáveis adicionadas no âmbito do projeto CCLE, como por exemplo as variáveis “cDNA_Change”, “isDeleterious”, “Variant_annotation”, entre outras. Dentro das variáveis adicionadas, um especial destaque para a variável “DepMap_ID”, que corresponde ao identificador da linhagem cancerígena humana na qual a mutação ocorre e que permite relacionar este dataset com os restantes.
## [1] 578 4687
## 'data.frame': 578 obs. of 4687 variables:
## $ X : chr "ACH-000001" "ACH-000007" "ACH-000008" "ACH-000010_FAILED_STR" ...
## $ BRD.A00077618.236.07.6..2.5..HTS : num -0.0156 -0.0957 0.3795 0.1189 0.1453 ...
## $ BRD.A00100033.001.08.9..2.5..HTS : num -0.449 0.258 -0.596 -0.232 -0.499 ...
## $ BRD.A00147595.001.01.5..2.5..HTS : num 0.489 0.772 0.548 0.622 0.267 ...
## $ BRD.A00218260.001.03.4..2.5..HTS : num 0.207 -0.439 0.422 -0.203 0.158 ...
## $ BRD.A00376169.001.01.6..2.5..HTS : num 0.273 -0.733 -0.217 -1.005 -0.272 ...
## $ BRD.A00520476.001.07.4..2.5..HTS : num 0.021 0.7792 0.0819 -0.2137 0.2078 ...
## $ BRD.A00546892.001.02.6..2.5..HTS : num -0.02546 0.42652 0.14534 0.02025 0.00446 ...
## $ BRD.A00578795.001.04.3..2.5..HTS : num 0.467 -1.289 -0.571 -0.795 -0.192 ...
## $ BRD.A00758722.001.04.9..2.5..HTS : num -0.736 -0.476 -0.512 NA -0.31 ...
## $ BRD.A00827783.001.24.6..2.5..HTS : num 0.644 -0.277 0.453 0.68 0.113 ...
## $ BRD.A00993607.003.24.6..2.5..HTS : num -0.3711 -1.2491 0.2528 -0.0387 0.2683 ...
## $ BRD.A01098288.001.02.9..2.5..HTS : num 0.425 -0.525 0.174 -0.336 0.185 ...
## $ BRD.A01412266.001.01.0..2.5..HTS : num NA 0.40064 0.00387 0.13676 -0.69812 ...
## $ BRD.A01493904.003.12.1..2.5..HTS : num 0.287 -0.7326 -0.0115 -0.7053 -0.0609 ...
## $ BRD.A01563671.001.02.7..2.5..HTS : num 0.4105 0.0659 0.4705 -0.0295 0.4257 ...
## $ BRD.A01593789.001.03.1..2.5..HTS : num 0.405 -1.1162 -0.0331 -0.1378 0.3738 ...
## $ BRD.A01636364.003.15.1..2.5..HTS : num 0.7023 0.527 0.0066 -0.1854 0.4973 ...
## $ BRD.A01643550.001.04.9..2.5..HTS : num -0.6487 -1.6317 -0.0465 NA -0.3948 ...
## $ BRD.A01787639.003.16.9..2.5..HTS : num 0.53716 -0.57987 -0.27487 0.40747 -0.00193 ...
## $ BRD.A01907367.001.01.7..2.5..HTS : num -0.0519 0.556 -0.4662 -0.1097 -0.3315 ...
## $ BRD.A02006392.001.16.4..2.5..HTS : num -0.463 0.423 -0.446 -0.896 -0.39 ...
## $ BRD.A02180903.001.04.5..2.5..HTS : num 0.213 0.177 0.43 -0.397 0.408 ...
## $ BRD.A02710418.003.11.8..2.5..HTS : num 0.514 0.192 -0.354 -0.117 -0.441 ...
## $ BRD.A02743701.001.03.6..2.5..HTS : num 0.5616 -0.0157 0.1392 0.173 -0.1205 ...
## $ BRD.A02759312.003.24.5..2.5..HTS : num 0.0924 0.125 0.2828 -0.2759 0.4065 ...
## $ BRD.A02990301.003.06.6..2.5..HTS : num -0.841 -0.365 -0.393 -0.659 -0.114 ...
## $ BRD.A03061970.003.07.3..2.5..HTS : num 0.61 0.24 0.149 -0.458 -0.124 ...
## $ BRD.A03216249.003.24.3..2.5..HTS : num -1.401 -0.292 0.158 -0.544 -1.085 ...
## $ BRD.A03359064.001.02.3..2.5..HTS : num 0.774 -0.131 0.665 0.188 0.338 ...
## $ BRD.A03506276.001.01.5..2.5..HTS : num -1.41 -2.57 -3.69 -3.3 -5.07 ...
## $ BRD.A03623303.045.09.5..2.5..HTS : num -0.139 -0.366 -0.743 -0.597 -0.831 ...
## $ BRD.A03880619.001.01.0..2.5..HTS : num 0.266 -0.213 NA NA 0.195 ...
## $ BRD.A03932035.004.04.3..2.5..HTS : num 0.648 0.54 -0.147 NA -0.41 ...
## $ BRD.A04203391.001.08.3..2.5..HTS : num -0.383 0.541 -0.297 -0.467 -0.268 ...
## $ BRD.A04252265.003.01.4..2.5..HTS : num NA 0.5777 -0.0203 -0.5163 -0.0502 ...
## $ BRD.A04322457.003.17.9..2.5..HTS : num 0.0587 0.5525 -0.0493 0.6027 0.1814 ...
## $ BRD.A04327189.001.15.1..2.5..HTS : num -0.329 0.066 -0.33 -0.235 -0.315 ...
## $ BRD.A04327189.003.03.3..2.5..HTS : num 0.228 0.543 0.194 NA 0.532 ...
## $ BRD.A04352665.001.05.3..2.5..HTS : num 0.213 0.283 0.528 NA 0.521 ...
## $ BRD.A04497688.001.04.2..2.5..HTS : num 0.179 0.48 0.123 0.611 0.354 ...
## $ BRD.A04506385.001.01.2..2.5..HTS : num NA -0.3566 -0.2249 -0.1493 -0.0816 ...
## $ BRD.A04553218.050.16.2..2.5..HTS : num 0.3445 -0.0371 -0.0985 0.06 0.1954 ...
## $ BRD.A04661934.001.02.9..2.5..HTS : num 0.255 0.259 -0.176 0.135 0.109 ...
## $ BRD.A05186015.003.19.8..2.5..HTS : num 0.0909 0.5407 0.2209 0.1777 0.3522 ...
## $ BRD.A05334458.001.02.8..2.5..HTS : num 0.223 0.992 0.275 0.559 0.169 ...
## $ BRD.A05457250.001.08.4..2.5..HTS : num -0.5334 -0.1141 -0.3143 -1.3938 0.0947 ...
## $ BRD.A05515753.001.03.2..2.5..HTS : num 0.0463 0.1645 0.0135 -0.2616 0.1079 ...
## $ BRD.A05523972.001.01.5..2.5..HTS : num -0.0745 0.4815 0.3689 0.5272 -0.2871 ...
## $ BRD.A05674712.001.06.0..2.5..HTS : num -0.2568 -0.7986 0.0222 NA 0.2414 ...
## $ BRD.A05729358.001.02.0..2.5..HTS : num 0.2683 0.4561 0.0127 0.2433 0.1397 ...
## $ BRD.A05906449.004.01.1..2.5..HTS : num -0.209 -0.397 0.302 0.114 0.213 ...
## $ BRD.A06352418.001.25.9..2.5..HTS : num -0.302 -1.052 -1.207 NA 0.193 ...
## $ BRD.A06352508.001.03.7..2.5..HTS : num -0.191 -2.594 -0.925 -0.124 -0.161 ...
## $ BRD.A06390036.001.04.6..2.5..HTS : num -0.1465 0.3022 -0.1323 -0.1116 0.0304 ...
## $ BRD.A06426627.001.03.5..2.5..HTS : num 0.616 -1.634 -0.289 -0.25 -0.642 ...
## $ BRD.A06627858.236.03.0..2.5..HTS : num -1.54 -3.06 -3.52 -5.01 -2.15 ...
## $ BRD.A06771424.004.01.7..2.5..HTS : num 1.0642 0.5683 0.3165 -0.5771 0.0337 ...
## $ BRD.A06916187.001.02.9..2.5..HTS : num -0.122 0.196 0.524 -0.195 0.176 ...
## $ BRD.A06935312.001.04.3..2.5..HTS : num 0.5016 0.905 0.2082 -0.1517 0.0261 ...
## $ BRD.A07000685.001.04.4..2.5..HTS : num 0.063 0.565 0.548 0.577 0.741 ...
## $ BRD.A07164067.001.01.2..2.5..HTS : num -0.0156 -0.3998 -0.3246 0.1358 0.1764 ...
## $ BRD.A07207424.001.13.2..2.5..HTS : num 0.56 0.477 -0.512 -0.462 -0.522 ...
## $ BRD.A07232941.001.02.7..2.5..HTS : num -0.2076 0.6881 0.0506 0.02 0.2224 ...
## $ BRD.A07395371.003.10.0..2.5..HTS : num -0.2712 0.3746 0.0555 0.2218 0.559 ...
## $ BRD.A07440155.003.25.4..2.5..HTS : num -0.218 0.474 0.204 0.568 0.397 ...
## $ BRD.A07563059.035.01.3..2.5..HTS : num -0.188 0.979 0.268 0.333 0.337 ...
## $ BRD.A07600638.060.05.2..2.5..HTS : num 0.0809 -0.3191 0.1392 NA 0.1176 ...
## $ BRD.A07704283.001.01.3..2.5..HTS : num 0.577 0.716 0.142 -0.289 0.106 ...
## $ BRD.A07780951.001.08.9..2.5..HTS : num -0.0392 -0.0235 0.3309 0.5397 0.0186 ...
## $ BRD.A07780951.065.10.0..2.58..HTS : num 0.872 -0.329 NA NA 0.479 ...
## $ BRD.A07815743.001.01.1..2.5..HTS : num 0.6981 -0.0198 0.2876 -0.6879 0.1377 ...
## $ BRD.A07870296.001.07.4..2.5..HTS : num 0.592 -0.0405 0.0565 0.5407 0.0993 ...
## $ BRD.A07893380.213.01.7..2.5..HTS : num 0.345 -0.407 0.24 NA 0.137 ...
## $ BRD.A07932845.050.15.8..2.5..HTS : num 0.0749 0.5231 -0.1526 -0.4104 0.2943 ...
## $ BRD.A07947329.001.01.4..2.5..HTS : num 0.3441 -0.3001 -0.2426 0.0326 -0.5534 ...
## $ BRD.A07986123.001.02.8..2.5..HTS : num -0.302 -0.01 -0.189 NA -0.301 ...
## $ BRD.A08079565.001.01.8..2.5..HTS : num -0.1685 -0.3897 -0.0983 -0.5774 -0.1868 ...
## $ BRD.A08187463.001.12.9..2.5..HTS : num -0.684 -1.348 -0.343 NA -0.13 ...
## $ BRD.A08255417.001.14.7..2.5..HTS : num -0.135 0.751 0.494 0.038 0.312 ...
## $ BRD.A08302182.001.01.7..2.5..HTS : num 0.3335 -0.6729 -0.0754 -0.6886 -0.1436 ...
## $ BRD.A08545410.003.07.8..2.38..HTS : num 0.0693 0.6077 1.1546 NA 0.6525 ...
## $ BRD.A08545410.003.08.6..2.5..HTS : num 1.095 -0.539 -0.167 -0.327 -0.086 ...
## $ BRD.A08545410.311.01.8..2.5..HTS : num -0.0386 0.1407 -0.1815 NA 0.0935 ...
## $ BRD.A08545410.311.03.4..2.5..HTS : num -1.209 -3.258 -0.924 NA -0.909 ...
## $ BRD.A08660406.001.05.9..2.5..HTS : num 0.0498 -1.3761 -0.7559 NA -0.0463 ...
## $ BRD.A08715367.001.01.7..2.87..HTS : num 0.151 0.328 -0.21 -1.394 -0.328 ...
## $ BRD.A08840375.001.01.3..2.5..HTS : num -1.4 -3.34 -1.57 -2.5 -1.11 ...
## $ BRD.A09056319.003.07.7..2.5..HTS : num -0.126 0.488 0.225 0.403 0.191 ...
## $ BRD.A09062839.003.10.0..2.5..HTS : num -0.5967 0.5649 -0.4324 -0.4458 0.0947 ...
## $ BRD.A09094913.065.01.0..2.5..HTS : num -0.4175 -0.2839 -0.0766 -0.6086 -0.4415 ...
## $ BRD.A09349126.001.10.7..2.5..HTS : num 1.407 -0.7497 0.0472 NA 0.1506 ...
## $ BRD.A09370961.001.01.0..2.5..HTS : num 0.66 -0.375 -1.089 NA -0.287 ...
## $ BRD.A09467419.003.22.4..2.5..HTS : num 0.1244 1.3703 0.1209 NA 0.0886 ...
## $ BRD.A09472452.015.23.4..2.5..HTS : num -0.331 0.2393 -0.1565 NA 0.0392 ...
## $ BRD.A09533288.003.31.2..2.5..HTS : num 0.0396 -0.1382 -0.1224 NA 0.3315 ...
## $ BRD.A09554849.236.07.6..2.5..HTS : num 0.7528 0.5457 -0.0935 -0.4412 0.2627 ...
## $ BRD.A09722536.002.18.0..2.5..HTS : num 0.20442 -0.00205 0.13307 0.53681 0.46134 ...
## $ BRD.A09735281.001.02.5..2.5..HTS : num -0.209 -0.616 0.109 -0.222 0.143 ...
## [list output truncated]
O dataset drug_response possui \(578\) linhas, que correspondem a linhagens cancerígenas humanas, e \(4687\) colunas, que correspondem a fármacos. Associados a cada uma das variáveis encontram-se dados de viabilidade celular face ao fármaco. Estes dados encontram-se normalizados e correspondem a valores de \(log\)fold change, tendo sofrido correções para perturbações experimentais. As linhagens estão identificadas pelo seu “DepMapID” e os fármacos são identificados pelo seu “Broad ID”, que corresponde a um identificador das combinações experimentais condição/replicação. Todas as variáveis são númericas, tirando a variável “X” que corresponde às labels das linhagens.
## [1] 1811 26
## tibble [1,811 × 26] (S3: tbl_df/tbl/data.frame)
## $ DepMap_ID : chr [1:1811] "ACH-000001" "ACH-000002" "ACH-000003" "ACH-000004" ...
## $ cell_line_name : chr [1:1811] "NIH:OVCAR-3" "HL-60" "CACO2" "HEL" ...
## $ stripped_cell_line_name : chr [1:1811] "NIHOVCAR3" "HL60" "CACO2" "HEL" ...
## $ CCLE_Name : chr [1:1811] "NIHOVCAR3_OVARY" "HL60_HAEMATOPOIETIC_AND_LYMPHOID_TISSUE" "CACO2_LARGE_INTESTINE" "HEL_HAEMATOPOIETIC_AND_LYMPHOID_TISSUE" ...
## $ Alias : chr [1:1811] "OVCAR3" NA "CACO2, CaCo-2" NA ...
## $ COSMICID : num [1:1811] 905933 905938 NA 907053 NA ...
## $ sex : chr [1:1811] "Female" "Female" "Male" "Male" ...
## $ source : chr [1:1811] "ATCC" "ATCC" "ATCC" "DSMZ" ...
## $ Achilles_n_replicates : num [1:1811] NA NA NA 2 2 NA 2 NA 3 NA ...
## $ cell_line_NNMD : num [1:1811] NA NA NA -3.08 -2.4 ...
## $ culture_type : chr [1:1811] NA NA NA "Suspension" ...
## $ culture_medium : chr [1:1811] NA NA NA "RPMI + 10% FBS" ...
## $ cas9_activity : num [1:1811] NA NA NA 52.4 86.6 NA 47.7 NA 94.2 NA ...
## $ RRID : chr [1:1811] "CVCL_0465" "CVCL_0002" "CVCL_0025" "CVCL_0001" ...
## $ WTSI_Master_Cell_ID : num [1:1811] 2201 55 NA 783 NA ...
## $ sample_collection_site : chr [1:1811] "ascites" "haematopoietic_and_lymphoid_tissue" "Colon" "haematopoietic_and_lymphoid_tissue" ...
## $ primary_or_metastasis : chr [1:1811] "Metastasis" "Primary" NA NA ...
## $ primary_disease : chr [1:1811] "Ovarian Cancer" "Leukemia" "Colon/Colorectal Cancer" "Leukemia" ...
## $ Subtype : chr [1:1811] "Adenocarcinoma, high grade serous" "Acute Myelogenous Leukemia (AML), M3 (Promyelocytic)" "Adenocarcinoma" "Acute Myelogenous Leukemia (AML), M6 (Erythroleukemia)" ...
## $ age : num [1:1811] 60 35 NA 30 30 64 63 56 72 NA ...
## $ Sanger_Model_ID : chr [1:1811] "SIDM00105" "SIDM00829" "SIDM00891" "SIDM00594" ...
## $ depmap_public_comments : logi [1:1811] NA NA NA NA NA NA ...
## $ lineage : chr [1:1811] "ovary" "blood" "colorectal" "blood" ...
## $ lineage_subtype : chr [1:1811] "ovary_adenocarcinoma" "AML" "colorectal_adenocarcinoma" "AML" ...
## $ lineage_sub_subtype : chr [1:1811] "high_grade_serous" "M3" NA "M6" ...
## $ lineage_molecular_subtype: chr [1:1811] NA NA NA NA ...
O dataset sample_info possui \(1811\) linhas, que correspondem a linhagens cancerígenas humanas, e \(26\) colunas, que correspondem aos seus descritivos. Contém identificadores (“DepMap_ID”, “COSMICID”, “CCLE_Name”, entre outros), informações sobre a linhagem (“source”, “culture_type”, “lineage”, entre outros) e informações sobre o indivíduo (“sex”, “age”). Especial destaque para a variável “DepMap_ID”, que corresponde ao identificador da linhagem cancerígena humana e que permite relacionar este dataset com os restantes.
#tratamento do dataset sample_info
#Definir com caracteres
sample_info$COSMICID <- as.character(sample_info$COSMICID)
sample_info$WTSI_Master_Cell_ID <- as.character(sample_info$WTSI_Master_Cell_ID)
#Definir com fatores
sample_info$sex <- as.factor(sample_info$sex)
sample_info$source <- as.factor(sample_info$source)
sample_info$culture_type <- as.factor(sample_info$culture_type)
sample_info$sample_collection_site <- as.factor(sample_info$sample_collection_site)
sample_info$primary_or_metastasis <- as.factor(sample_info$primary_or_metastasis)
sample_info$primary_disease <- as.factor(sample_info$primary_disease)
sample_info$Subtype <- as.factor(sample_info$Subtype)
sample_info$lineage <- as.factor(sample_info$lineage)
sample_info$lineage_subtype <- as.factor(sample_info$lineage_subtype)
sample_info$lineage_sub_subtype <- as.factor(sample_info$lineage_sub_subtype)
sample_info$lineage_molecular_subtype <- as.factor(sample_info$lineage_molecular_subtype)
#tratamento do dataset mutations
#Definir como caracteres
CCLE_mutations$Hugo_Symbol <- as.character(CCLE_mutations$Hugo_Symbol)
CCLE_mutations$Entrez_Gene_Id <- as.character(CCLE_mutations$Entrez_Gene_Id)
CCLE_mutations$NCBI_Build <- as.character(CCLE_mutations$NCBI_Build)
#Definir como fatores
CCLE_mutations$Strand <- as.factor(CCLE_mutations$Strand)
CCLE_mutations$Variant_Classification <- as.factor(CCLE_mutations$Variant_Classification)
CCLE_mutations$Variant_Type <- as.factor(CCLE_mutations$Variant_Type)
CCLE_mutations$dbSNP_Val_Status <- as.factor(CCLE_mutations$dbSNP_Val_Status)
CCLE_mutations$DepMap_ID <- as.factor(CCLE_mutations$DepMap_ID)
CCLE_mutations$Variant_annotation <- as.factor(CCLE_mutations$Variant_annotation)Após a identificação das variáveis foi efetuada uma curadoria manual de forma a certificar que estas se encontravam nos formatos apropriados para a análise estatística. Para este efeito, foram detetadas várias variáveis que se apresentavam como “character (chr)” que foram fatorizadas de forma a permitir a sua análise. Por exemplo, a variável “sex” no dataframe sample_info após importação apresentava-se como uma variável “chr” e foi convertida numa variável com dois fatores (“Female”, “Male”). O oposto também se verificou, em que variáveis que se apresentavam como numéricas correspondiam na verdade a identificadores e foram convertidas em variáveis “chr”. Um exemplo deste caso foi a variável “Hugo_Symbol”, do dataframe CCLE_mutations, que se encontrava como numérica e foi convertida em “character”.
## [1] 0
## [1] 1955870
## [1] 76337
## [1] 14818
Após uma análise dos datasets fornecidos, verificamos que existem valores omissos (NA) nos datasets sample_info, drug_response e CCLE_mutation.
No entanto apenas faz sentido tratar estes valores no dataset drug_response, uma vez que estes pertencem a variáveis númericas. A exsitência de NA neste dataset irá afetar a análise a jusante, uma vez que nas análises estatísticas subsequentes existem métodos que não permitem a inclusão de NA. No caso dos restantes datasets os NA que encontramos pertencem a variáveis factoriais ou de tipo “character”, acabando por, ou não afetar na análise a efetuar a jusante, sendo que podem ser removidos posteriormente caso necessário, ou serem pertencentes a variáveis de pouco interesse para o nosso estudo, ou ainda devido ao facto de tais valores serem impossíveis de substituir devido à especificidade da variável a cada uma das observações, e da dificuldade de imputar dados de tipo não numéricos devido à impossibilidade de calcular valores tais como a média e a mediana.
Para tratar os NA presentes no dataset drug_response decidimos substituir todos os NA presentes nesse dataset pelo valor da média da respetiva coluna ao qual o NA pertence. Escolhemos substituir os NA pela média de cada coluna, uma vez que como a coluna representa o fármaco e a linha o gene, é mais acertado, do nosso ponto de vista, a substituição pela média da resposta a esse fármaco, do que pela resposta do gene a diferentes fármacos. Esta escolha baseia-se no facto de que o mesmo gene pode responder de maneira muito variada a diferentes fármacos, no entanto diferentes genes poderão responder de forma semelhante ao mesmo fármaco. Como explicado anteriormente este tratamento é necessário para que seja possível realizar outras análises a jusante.
#remover NA do dataset drug_response
for (i in 2:ncol(drug_response)) {
m = mean(drug_response[,i], na.rm= TRUE)
drug_response[is.na(drug_response[,i]),i] = m
}
#contagem de NA
sum(is.na(drug_response)) ## [1] 0
Como falado anteriormente, os datasets encontam-se conetados pelo identificador representativo das linhagens celulares cancerígenas do portal DepMap. Como tal, foi considerado de interesse realizar o subset destes datasets de forma a chegar a uma lista de linhagens celulares transversais a todos os datasets que podesse ser utilizada nas análises a efetuar.
#Troca os nomes das variáveis correspondentes para DepMap_ID
names(drug_response)[names(drug_response) == "X"] <- "DepMap_ID"
names(raw_counts)[names(raw_counts) == "X"] <- "DepMap_ID"
#Criar subsets apenas com as linhagens presentes no drug_response
#Subset dos raw_counts x CCLE_mutation
sub_raw_counts <- raw_counts %>% filter(raw_counts$DepMap_ID %in% CCLE_mutations$DepMap_ID)
dim(sub_raw_counts)## [1] 1372 52440
#Subset dos sub_raw_counts x drug_response
sub_raw_counts <- sub_raw_counts %>% filter(sub_raw_counts$DepMap_ID %in% drug_response$DepMap_ID)
dim(sub_raw_counts)## [1] 559 52440
#Subset dos sub_raw_counts x sample_info
sub_raw_counts <- sub_raw_counts %>% filter(sub_raw_counts$DepMap_ID %in% sample_info$DepMap_ID)
dim(sub_raw_counts)## [1] 559 52440
#Subset dos CCLE_mutations x sub_raw_counts
sub_CCLE_mutations <- CCLE_mutations %>% filter(CCLE_mutations$DepMap_ID %in% sub_raw_counts$DepMap_ID)
#Subset dos sample_info x sub_raw_counts
sub_sample_info <- sample_info %>% filter(sample_info$DepMap_ID %in% sub_raw_counts$DepMap_ID)
#Subset dos drug_response x sub_raw_counts
sub_drug_response <- drug_response %>% filter(drug_response$DepMap_ID %in% sub_raw_counts$DepMap_ID) Realizamos a interseção entre o dataset raw_counts e os restantes de modo a verficar quais as linhagens celulares que se encontram nos 4 datasets em questão.
Cruzando todos os datasets obtivemos \(559\) linhagens celulares comuns a todos os datasets. Verificamos também que o drug_response é o dataset mais limitante nesta análise.
print(dfSummary(sub_CCLE_mutations, style = 'grid', graph.magnif = 1, valid.col = FALSE,
max.distinct.values = 5, col.widths = c(100, 200, 200, 350, 500, 250),
dfSummary.silent = TRUE, headings = FALSE, justify = 'l')
, method = 'render', max.tbl.height = 500)| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Missing | ||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Hugo_Symbol [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 2 | Entrez_Gene_Id [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 3 | NCBI_Build [character] | 1. 37 |
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 4 | Chromosome [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 5 | Start_position [integer] |
|
460934 distinct values | 0 (0.0%) | |||||||||||||||||||||||||||||||
| 6 | End_position [integer] |
|
459239 distinct values | 0 (0.0%) | |||||||||||||||||||||||||||||||
| 7 | Strand [factor] | 1. + |
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 8 | Variant_Classification [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 9 | Variant_Type [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 10 | Reference_Allele [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 11 | Tumor_Seq_Allele1 [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 12 | dbSNP_RS [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 13 | dbSNP_Val_Status [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 14 | Genome_Change [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 15 | Annotation_Transcript [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 16 | DepMap_ID [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 17 | cDNA_Change [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 18 | Codon_Change [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 19 | Protein_Change [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 20 | isDeleterious [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 21 | isTCGAhotspot [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 22 | TCGAhsCnt [numeric] |
|
78 distinct values | 360019 (72.1%) | |||||||||||||||||||||||||||||||
| 23 | isCOSMIChotspot [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 24 | COSMIChsCnt [numeric] |
|
233 distinct values | 25 (0.0%) | |||||||||||||||||||||||||||||||
| 25 | ExAC_AF [numeric] |
|
3781 distinct values | 390013 (78.1%) | |||||||||||||||||||||||||||||||
| 26 | Variant_annotation [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 27 | CGA_WES_AC [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 28 | HC_AC [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 29 | RD_AC [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 30 | RNAseq_AC [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 31 | SangerWES_AC [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||
| 32 | WGS_AC [character] |
|
|
0 (0.0%) |
Generated by summarytools 1.1.4 (R version 4.5.1)
2025-08-19
Após a correta identificação das variáveis, foi efetuado o cálculo das estatísticas de sumário para os datasets sub_sample_info e sub_CCLE_mutations.
Esta mesma análise não foi efetuada sobre os datasets sub_raw_counts e sub_drug_response. Estes datasets são exclusivamente constituídos por um elevado número de variaveis numéricas. O cálculo dos descritivos associados a estas variáveis é, na nossa ótica, pouco informativo e computacionalmente exaustivo. Em adição, devido ao elevado número de entradas de dados, a normalidade de distribuições pode ser assumida com recurso ao teorema do limite central.
Relativamente ao dataset sub_CCLE_mutations as primeiras 3 variáveis correspondem a identificadores de bases de dados.
A variável 4 corresponde ao cromossoma onde se localiza a mutação em questão. É interessante verificar que o cromossoma 1, com \(10\%\) de frequência relativa, é o factor que ocorre com maior frequência nesta variável.
As variáveis 5, 6 e 7 correspondem à localização da mutação (início, fim e cadeia).
A variável 8 corresponde a classificação da variante na qual se insere a mutação. Destaca-se os factores “Missense_Mutation” e “Silent”, com aproximadamente \(58\%\) e \(25\%\) de frequência relativa, respetivamente.
A variável 9 corresponde corresponde ao tipo de variante, e verifica-se que a vasta maioria encontra-se classificado como o tipo “SNP”, com cerca de \(91\%\) de frequência relativa.
A variável 10 corresponde ao alelo de referência e a variável 11 corresponde ao alelo com a mutação.
As variáveis 12 e 13 correspondem a validação dos SNPs, possuindo um elevado número de dados omissos (\(84\%\) e \(91\%\)), referentes a base de dados dbSNP (Single Nucleotide Polimorfism database).
A variável 14 corresponde a informações relativas à mutação e ao seu posicionamento.
A variável 15 e 16 correspondem a identificadores, sendo a primeira referente a anotação do transcrito no ENSEMBL e a segunda à identificação da linhagem celular pelo seu DepMap ID.
A variável 17 corresponde as mudanças no cDNA, a variável 18 a mudanças no codão e a 19 a mudanças na proteína associados à mutação.
A variável 20 classifica de forma binária se a mutação é deletéria ou não, sendo cerca de \(85\%\) classicadas como não deletérias.
A variável 21 classifica de forma binária se a mutação é um hotspot da TCGA (The Cancer Genome Atlas), sendo cerca de \(97\%\) classicadas como não o sendo.
A variável 22 corresponde a contagens de um atributo relacionado com a TGCA, possuindo uma média de \(1,5\), um desvio-padrão de \(23,3\) e um coeficiente de variação razoável com o valor de \(23,3\%\).
A variável 23 classifica de forma binária se a mutação é um hotspot COSMIC (Catalog of Somatic mutations in Cancer), sendo \(99,7\%\) classicadas como não o sendo.
A variável 24 corresponde a contagens de relacionados com a COSMIC, possuindo uma média de \(4,9\), um desvio-padrão de \(253,8\) e um coeficiente de variação bastante elevado com o valor de \(51,4\%\).
A variável 25 corresponde a “ExAC_AF” e não nos foi possível identificar o seu significado.
A variável 26 corresponde à anotação que se encontra associada a variante na qual se insere a mutação em causa sendo \(59,1\%\) da classe “other non-conserving”, \(25,8\%\) da classe “silent”, \(15,1\%\) da classe “damaging” e \(0.1\%\) da classe “other conserving”.
As variáveis 27 a 32 não possuem informação descritiva no portal DepMap e não foi possível averiguar a sua significância. Observa-se que possuem um elevado número de valores omissos, e que possuem uma elevada quantidade de caracteres únicos.
print(dfSummary(sub_sample_info, style = 'grid', graph.magnif = 1, valid.col = FALSE,
max.distinct.values = 5, col.widths = c(100, 200, 200, 350, 500, 250),
dfSummary.silent = TRUE, headings = FALSE, justify = 'l')
, method = 'render', max.tbl.height = 500)| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Missing | ||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | DepMap_ID [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 2 | cell_line_name [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 3 | stripped_cell_line_name [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 4 | CCLE_Name [character] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 5 | Alias [character] |
|
|
542 (97.0%) | |||||||||||||||||||||||||||||||||||
| 6 | COSMICID [character] |
|
|
164 (29.3%) | |||||||||||||||||||||||||||||||||||
| 7 | sex [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 8 | source [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 9 | Achilles_n_replicates [numeric] |
|
|
120 (21.5%) | |||||||||||||||||||||||||||||||||||
| 10 | cell_line_NNMD [numeric] |
|
439 distinct values | 120 (21.5%) | |||||||||||||||||||||||||||||||||||
| 11 | culture_type [factor] |
|
|
247 (44.2%) | |||||||||||||||||||||||||||||||||||
| 12 | culture_medium [character] |
|
|
121 (21.6%) | |||||||||||||||||||||||||||||||||||
| 13 | cas9_activity [numeric] |
|
292 distinct values | 123 (22.0%) | |||||||||||||||||||||||||||||||||||
| 14 | RRID [character] |
|
|
2 (0.4%) | |||||||||||||||||||||||||||||||||||
| 15 | WTSI_Master_Cell_ID [character] |
|
|
164 (29.3%) | |||||||||||||||||||||||||||||||||||
| 16 | sample_collection_site [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 17 | primary_or_metastasis [factor] |
|
|
66 (11.8%) | |||||||||||||||||||||||||||||||||||
| 18 | primary_disease [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 19 | Subtype [factor] |
|
|
15 (2.7%) | |||||||||||||||||||||||||||||||||||
| 20 | age [numeric] |
|
77 distinct values | 142 (25.4%) | |||||||||||||||||||||||||||||||||||
| 21 | Sanger_Model_ID [character] |
|
|
112 (20.0%) | |||||||||||||||||||||||||||||||||||
| 22 | depmap_public_comments [logical] |
|
559 (100.0%) | ||||||||||||||||||||||||||||||||||||
| 23 | lineage [factor] |
|
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||
| 24 | lineage_subtype [factor] |
|
|
1 (0.2%) | |||||||||||||||||||||||||||||||||||
| 25 | lineage_sub_subtype [factor] |
|
|
272 (48.7%) | |||||||||||||||||||||||||||||||||||
| 26 | lineage_molecular_subtype [factor] |
|
|
500 (89.4%) |
Generated by summarytools 1.1.4 (R version 4.5.1)
2025-08-19
Por último, relativamente ao dataset sub_sample_info as primeiras 6 variáveis são referentes a identificadores de diversas bases de dados e das linhagens.
A variável 7 refere-se ao género dos indivíduos onde a linhagem é oriunda, sendo cerca de \(41\%\) da classe “Female”, \(53\%\) da classe “Male” e \(5\%\) da classe “Unknown”.
A variável 8 corresponde ao laboratório que forneceu a linhagem, sendo as 3 primeiras classes com maiores frequência relativas a classe “ATCC” (American Type Culture Collection) com \(41%\), “DSMZ” (Deutsche Sammlung von Mikroorganismen und Zellkulturen) com \(15\%\) e “HSRRB” (Human Science Research Resources Bank) com \(13\%\).
A variável 9 corresponde ao número de replicações no ambito do projeto para estas linhagens, tendo como média \(2,1\) e desvio-padrão de \(0,8\), apresentando um coeficiente variação baixo com o valor de \(0,4\%\).
A variável 10 corresponde a diferença entre as médias dos controlos positivos e negativos, estando normalizadas. Esta normalização é facilmente após análise do histograma associado, demonstrando uma distribuição normal. Apresenta uma média de \(-3,7\) e desvio-padrão de \(1,1\), apresentando um coeficiente variação baixo com o valor de \(-0,3\%\).
A variável 11 corresponde ao tipo de cultura utilizado nas linhagens celulares, sendo a maioria da classe “Adherent” (frequêcia relativa de \(90,38\%\)).
A variável 12 corresponde a composição do meio de cultura, verificando-se que existem diferentes anotações para a mesma classe, tendo como consequência uma elevada dispersão no número de classes. Mesmo assim é possível verificar que a classe mais abundante corresponde ao meio “RPMI + 10% FBS”, com \(39,7\%\) de frequência relativa.
A variável 13 corresponde a percentagem de células que permanecem a expressar GFP (Green Fluorescent protein) 12 a 14 dias após exposição à atividade da enzima cas9 na linhagem celular. Apresenta uma média de \(74,9\) e desvio-padrão de \(15,3\), apresentando um coeficiente variação baixo com o valor de \(0,2\%\).
A variável 14 corresponde ao “RRID” (Cellosaurus research resource identifier).
A variável 15 corresponde ao “WTSI_Master_Cell_ID” (Wellcome Trust Sanger Institute).
A variável 16 corresponde ao local de colheita da amostra, possuindo esta variável \(41\) fatores, sendo os primeiros 4 com maior frequencia relativa o “pleural_effusion” (\(9,84\%\)), “lung” (\(9,66\%\)), “lymph_node” (\(9,12\%\)) e “central_nervous_system” (\(8,94\%\)).
A variável 17 corresponde ao estágio cancerígeno da linhagem celular enquanto “Primary” (\(59\%\)) ou “Metastasis” (\(41\%\)).
A variável 18 corresponde à categoria da linhagem (35 classes), leia-se o tipo de cancro associado, sendo os primeiras 3 classes mais abundantes “Lung Cancer” (\(19,5\%\)), “Skin Cancer” e “Brain Cancer” (\(7,51\%\)).
A variável 19 corresponde ao nome específico da doença com 173 classes associadas, sendo as primeiras 3 “Adenocarcinoma” (\(10,11\%\)), “Non-Small Cell Lung Cancer (NSCLC), Adenocarcinoma” (\(8,82\%\)) e “Melanoma” (\(7,35\%\)).
A variável 20 corresponde a idade do dador do tecido na altura da colheita. Apresenta uma média de \(53\) e desvio-padrão de \(18,1\), apresentando um coeficiente variação baixo com o valor de \(0,3\%\).
A variável 21 corresponde ao “Sanger_Model_ID” (Sanger Institute Cell Model Passport).
A variável 22 corresponde a comentários publicos na base de dados DepMap, sendo totalmente composta por valores omissos.
As variáveis 23, 24, 25 corresponde a classificação do tipo de cancro , divididas por tipo (39 fatores) (“lineage”), subtipo (104 fatores) (“lineage_subtype”) e subsubtipo (81 fatores) (“lineage_sub_subtype”), respetivamente. Relativamente ao tipo o fator mais abundate é o “lung” com \(19,5\%\) de frequência relativa. Já quanto ao subtipo, o fator mais abundante é o “NSCLC” (Non-small-cell lung carcinoma) com \(15,77\%\) de frequência relativa. Por último o subsubtipo, o fator mais abundante é o “NSCLC_adenocarcinoma”, com \(16,72\%\) de frequência relativa. Destaca-se que esta variável possui um elevado número de dadps omissos (\(48,7\%\))
A variável 26 corresponde a marcadores moleculares associados ao cancro que permitem a sua identificação ao nível, possuindo 15 fatores. O fator mais abundante é o “MSI” (microsatellite instability), com \(23,73\%\) de frequência relativa. Nesta variável, \(89,4\%\) das entradas correspondem a dados omissos.
# Pie Chart Variant type
w = table(sub_CCLE_mutations$Variant_Type)
t = as.data.frame(w)
slices <- t$Freq
lbls <- t$Var1
pct <- round(slices/sum(slices)*100)
lbls <- paste(lbls, pct) # add percents to labels
lbls <- paste(lbls,"%",sep="") # ad % to labels
pie(slices,labels = lbls, col = c("darkslategray1", "coral", "darkolivegreen1", "navajowhite"),
main="Variant Type")w2 = table(sub_CCLE_mutations$Variant_annotation)
t2 = as.data.frame(w2)
# Pie Chart Variant annotation
slices <- t2$Freq
lbls <- t2$Var1
pct <- round(slices/sum(slices)*100)
lbls <- paste(lbls, pct) # add percents to labels
lbls <- paste(lbls,"%",sep="") # ad % to labels
pie(slices,labels = lbls, col = c("darkslategray1", "coral", "darkolivegreen1", "navajowhite"),
main="Variant Annotations")## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.8271 0.438
## 414
#There is no evidence to suggest that the variance across groups is statistically significantly different
# Compute the analysis of variance
res.aov <- aov(sub_sample_info$age ~ sub_sample_info$sex)
# Summary of the analysis
summary(res.aov)## Df Sum Sq Mean Sq F value Pr(>F)
## sub_sample_info$sex 2 542 270.8 0.826 0.438
## Residuals 414 135683 327.7
## 142 observations deleted due to missingness
#No differences
#Boxplot Age vs Sex
boxplot(age ~ sex, data = sub_sample_info, main = "Idade Vs Género", xlab = "Género", ylab = "Idade em anos", col = c("darkslategray1", "coral", "darkolivegreen1"))#Histograma Cas9_Activity
hist(sub_sample_info$cas9_activity, main = "Atividade Cas9", xlab = "Percentagem", ylab = "Nº de linhagens", col = "navajowhite") Foram construídos piecharts para a visualização das variáveis “Variant_Type” e “Variant_annotation” do dataset sub_CCLE_mutations.
Foi realizada uma análise ANOVA entre as variáveis “age” e “sex”. A normalidade de distribuição foi assumida pelo teorema do limite central, e a homogeneidade das variâncias, não havendo evidência que as variâncias entre grupos fossem estatísticamente diferentes, A análise ANOVA revelou que não existem diferenças significas entre as médias dos grupos da variável “sex” para os valores de “age”, como comprovado pela análise do boxplot associado.
Constuiu-se também um histograma para a visualização da variável “cas9_activity” do dataset sub_sample_info, observando-se que occore um maior número de linhagens entre as \(80-95\%\).
Para efetuar uma análise de expressão diferencial sobre o dataset raw_counts, o primeiro passo tomado foi selecionar os metadados que iriam permitir essa análise. Para este primeiro esforço foram selecionados como metadados a variável “primary_or_metastasis” do dataset sample_info e foi gerada uma nova variável (“mut_counts”) que corresponde à contagem do número de mutações associadas a cada linhagem cancerígena, tendo esta informação sido obtida com recurso à manipulação da variável “DepMap_ID” do dataset CCLE_mutations.
#1º Metadado --> quantificar as mutações de cada linhagem
#agrupar pelas linhagens celulares
mutation_counts <- CCLE_mutations %>%
group_by(DepMap_ID) %>%
summarise(mut_freq = length(DepMap_ID))
#Análise descritiva da coluna mut_freq
descr(mutation_counts$mut_freq)## Descriptive Statistics
## mutation_counts$mut_freq
## N: 1747
##
## mut_freq
## ----------------- ----------
## Mean 737.43
## Std.Dev 2163.49
## Min 16.00
## Q1 249.00
## Median 367.00
## Q3 577.00
## Max 66665.00
## MAD 207.56
## IQR 326.50
## CV 2.93
## Skewness 19.42
## SE.Skewness 0.06
## Kurtosis 525.69
## N.Valid 1747.00
## N 1747.00
## Pct.Valid 100.00
#Fazer a discritização dos dados em 3 níveis (low, medium, high) de acordo com a frequência
mutation_counts$mut_counts <- discretize(mutation_counts$mut_freq, method = "frequency", breaks = 3, labels = c("Low", "Medium", "High"))
#colocar as linhagens como row names
mutation_counts <- mutation_counts %>% remove_rownames %>% column_to_rownames(var="DepMap_ID")
#ver descrição do data.frame e distribução por cada nível
str(mutation_counts)## 'data.frame': 1747 obs. of 2 variables:
## $ mut_freq : int 308 180 207 271 288 220 408 379 438 352 ...
## $ mut_counts: Factor w/ 3 levels "Low","Medium",..: 2 1 1 1 1 1 2 2 2 2 ...
## ..- attr(*, "discretized:breaks")= num [1:4] 16 290 477 66665
## ..- attr(*, "discretized:method")= chr "frequency"
## Frequencies
## mutation_counts$mut_counts
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ------------ ------ --------- -------------- --------- --------------
## Low 582 33.31 33.31 33.31 33.31
## Medium 581 33.26 66.57 33.26 66.57
## High 584 33.43 100.00 33.43 100.00
## <NA> 0 0.00 100.00
## Total 1747 100.00 100.00 100.00 100.00
#2º Metadado - Cancro primário ou metástase
#Criar o data.frame com as linhagens e o tipo de cancro associada (primário (prim) e metástase (met))
prim_met = data.frame(label = sample_info$DepMap_ID, type = sample_info$primary_or_metastasis)
#Definir a variável "type" como um factor
prim_met$type <- as.factor(prim_met$type)
#Verificar a distribuição das linhagens por tipo de cancro
freq(prim_met$type)## Error in match(x, table, nomatch = 0L): 'match' requires vector arguments
## Warning in parse_call(mc = match.call(), caller = "freq"): metadata extraction
## terminated unexpectedly; inspect results carefully
## Frequencies
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ---------------- ------ --------- -------------- --------- --------------
## Metastasis 498 43.42 43.42 27.50 27.50
## Primary 649 56.58 100.00 35.84 63.34
## <NA> 664 36.66 100.00
## Total 1811 100.00 100.00 100.00 100.00
#transforma a variàvel label em row names, ou seja as linhagens
prim_met <- prim_met %>% remove_rownames %>% column_to_rownames(var="label")
#Criar a matriz com os nossos metadados ou seja "cruzar" o nº de mutações com o tipo de cancro de acordo com as linhagens
metadados <- merge(mutation_counts, prim_met, by=0, all=TRUE)
#Omitir as linhagens que têm NA associados
metadados_2 <- metadados
metadados_2$type <- NULL
clean_metadados <- na.omit(metadados)
dfSummary(clean_metadados)## Data Frame Summary
## clean_metadados
## Dimensions: 1125 x 4
## Duplicates: 0
##
## --------------------------------------------------------------------------------------------------------------
## No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
## ---- ------------- -------------------------- --------------------- --------------------- ---------- ---------
## 1 Row.names 1. ACH-000001 1 ( 0.1%) 1125 0
## [character] 2. ACH-000002 1 ( 0.1%) (100.0%) (0.0%)
## 3. ACH-000006 1 ( 0.1%)
## 4. ACH-000007 1 ( 0.1%)
## 5. ACH-000009 1 ( 0.1%)
## 6. ACH-000011 1 ( 0.1%)
## 7. ACH-000012 1 ( 0.1%)
## 8. ACH-000013 1 ( 0.1%)
## 9. ACH-000014 1 ( 0.1%)
## 10. ACH-000015 1 ( 0.1%)
## [ 1115 others ] 1115 (99.1%) IIIIIIIIIIIIIIIIIII
##
## 2 mut_freq Mean (sd) : 812.5 (2313) 672 distinct values : 1125 0
## [integer] min < med < max: : (100.0%) (0.0%)
## 16 < 421 < 66665 :
## IQR (CV) : 356 (2.8) :
## :
##
## 3 mut_counts 1. Low 270 (24.0%) IIII 1125 0
## [factor] 2. Medium 389 (34.6%) IIIIII (100.0%) (0.0%)
## 3. High 466 (41.4%) IIIIIIII
##
## 4 type 1. Metastasis 483 (42.9%) IIIIIIII 1125 0
## [factor] 2. Primary 642 (57.1%) IIIIIIIIIII (100.0%) (0.0%)
## --------------------------------------------------------------------------------------------------------------
#Datasets para análise diferencial
meta_expression <- raw_counts %>% filter(raw_counts$DepMap_ID %in% clean_metadados$Row.names)
meta_intersect <- clean_metadados %>% filter(clean_metadados$Row.names %in% meta_expression$DepMap_ID)
#Comprovativo do cruzamento
dim(meta_expression)## [1] 1020 52440
## [1] 1020 4
Para gerar a variável “mut_counts” foram contadas o número de linhas associados ao mesmo “DepMap_ID”, gerando a variável “mut_freq”. Esta variável numérica foi de seguida convertida numa variável fatorial com recurso a função discretize do package arules. Esta discretização foi efetuada por frequência, tendo sido pedido à função para gerar \(3\) níveis. Isto resultou em 3 níveis com aproximadamente o mesmo número de indivíduos, que classificamos como “Low”, “Medium” e “High”, sendo isto referente a quantidade relativa de mutações associadas a cada linhagem celular.
Foi também definida a variável “type” que foi extraída diretamente a partir da variável “primary_or_metastasis” do dataset sample_info. Esta variável possuia NA, que foram omitidos devido à impossibilidade de imputar dados fatoriais.
Estas duas variáveis foram combinadas num dataset, clean_metadados (sem NA), que foi cruzado com o dataset raw_counts, obtendo-se o dataset cruzado de expressão meta_expression. Os metadados foram também por sua vez cruzados com este último dataset e obteve-se o dataset cruzado de metadados meta_intersect.
Em suma, os datasets meta_expression e meta_intersect possuem os dados de expressão e de metadados respetivamente para as mesma linhagens celulares, sendo a partir destes que iremos efetuar a análise de expressão diferencial. Não se optou por partir dos datasets anteriormente cruzados (sub_raw_counts, sub_CCLE_mutations, sub_sample_info, sub_drug_response), pois como o dataset drug_response não será utilizado, e este era o mais limitante nas filtragens anteriores, optou-se por maximizar o número de linhagens celulares passíveis de serem analisadas.
Foi efetuada uma exploração univariada para a caracterização dos metadados.
## Descriptive Statistics
## mutation_counts$mut_freq
## N: 1747
##
## mut_freq
## ----------------- ----------
## Mean 737.43
## Std.Dev 2163.49
## Min 16.00
## Q1 249.00
## Median 367.00
## Q3 577.00
## Max 66665.00
## MAD 207.56
## IQR 326.50
## CV 2.93
## Skewness 19.42
## SE.Skewness 0.06
## Kurtosis 525.69
## N.Valid 1747.00
## N 1747.00
## Pct.Valid 100.00
#Density plot
ggdensity(clean_metadados$mut_freq,
main = "Mutation Counts",
xlab = "Number of Mutations")##
## Shapiro-Wilk normality test
##
## data: clean_metadados$mut_freq
## W = 0.18291, p-value < 2.2e-16
#Não é normal
#Homogeneidade de variancias
leveneTest(clean_metadados$mut_freq ~ clean_metadados$type)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.1588 0.6903
## 1123
#There is no evidence to suggest that the variance across groups is statistically significantly different
leveneTest(clean_metadados$mut_freq ~ clean_metadados$mut_counts)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 22.523 2.57e-10 ***
## 1122
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#There is evidence to suggest that the variance across groups is statistically significantly different
##Teste as médias
#Teste para dois grupos - freq vs type
wilcox.test(clean_metadados$mut_freq ~ clean_metadados$type,
exact = FALSE)##
## Wilcoxon rank sum test with continuity correction
##
## data: clean_metadados$mut_freq by clean_metadados$type
## W = 160234, p-value = 0.3359
## alternative hypothesis: true location shift is not equal to 0
#Box plot - types
p<-ggboxplot(clean_metadados, x = "type", y = "mut_freq",
color = "type", palette = c("#00AFBB", "#E7B800"),
ylab = "Weight", xlab = "Groups")
ggpar(p, ylim = c(0,1000), main = "Cancer Type")#Kruskal-wallis - freq vs counts
res.krusk <- kruskal.test(clean_metadados$mut_freq ~ clean_metadados$mut_counts)
res.krusk##
## Kruskal-Wallis rank sum test
##
## data: clean_metadados$mut_freq by clean_metadados$mut_counts
## Kruskal-Wallis chi-squared = 982.11, df = 2, p-value < 2.2e-16
##
## Pairwise comparisons using Wilcoxon rank sum test with continuity correction
##
## data: clean_metadados$mut_freq and clean_metadados$mut_counts
##
## Low Medium
## Medium <2e-16 -
## High <2e-16 <2e-16
##
## P value adjustment method: BH
#Box plot - counts
p2<-ggboxplot(clean_metadados, x = "mut_counts", y = "mut_freq",
color = "mut_counts", palette = c("#00AFBB", "#E7B800", "#FC4E07"),
ylab = "Weight", xlab = "Treatment")
ggpar(p2, ylim = c(0,2000), main = "Mutation Counts")Conclui-se que a variável “mut_freq”, possui uma média de \(737,43\) e um desvio-padrão de \(2163,49\), com um mínimo de \(16\) e um máximo de \(66665\), com um coeficiente de variação de \(2,93\%\). Com recurso a um Q-Q plot e a um teste de Shapiro-Wilk, verificou-se que esta variável não se encontra normalmente distribuída. A homogeneidade das variâncias foi averiguada com recurso ao teste de Levene, tendo-se verificado que quando agrupado a variável “mut_freq” pela variável “type” não existia evidência estatística para sugerir diferenças ente a variânca inter-grupos; o oposto verificou-se quando se repetiu a análise coma a variável “mut_counts”.
Analisando as médias, devido às variáveis não cumprirem as assumções da ANOVA e do t-test (normalidade de distribuição, homogeneidade de variância), optou-se por alternativas não-paramétricas, na forma do teste de Wilcox para testar a variância da variável “mut_freq” quando agrupada pela variável “type” (apenas dois grupos), e no teste de Kruskal-Wallis para testar a variância da variável “mut_freq” quando agrupada pela variável “mut_counts” (3 grupos).
Conclui-se que não se observam diferenças significativas entre os fatores da variável “type” relativamente a “mut_freq”, e que o oposto se verificou entre os fatores da variável “mut_counts” relativamente a “mut_freq”, tendo sido efetuadas comparações múltiplas a posteriori com o teste de Wilcox pairwise, sendo todas as comparações entre fatores significativas. Estas conclusões foram verificadas de forma gráfica com recurso aos boxplots acima apresentados.
O dataset meta_expression, acima explicado, teve a variável “DepMap_ID” definida com os seus rownames e foi ordenada e transposta originando a matriz de expressão exp_matrix usada para a análise de expressão diferencial.
#Preparar para transpor dados de expressão/Reservar informação sobre os genes
meta_expression <- meta_expression %>% remove_rownames %>% column_to_rownames(var="DepMap_ID")
#Ordenar os id das linhagens
meta_expression_ordered <- meta_expression[ order(row.names(meta_expression)), ]
#Transpor a matrix de expressão
exp_matrix <- t(meta_expression_ordered)Com recurso ao package org.Hs.eg.db e aos “ENSEMBLIDs” extraídos dos rownames da matriz exp_matrix foi possível extrair alguma anotação sobre os genes nesta presentes, mais concretamente o seu “ENTREZID”, “HUGO SYMBOL” e “GENENAME”. Foram removidos da matriz exp_matrix todos os genes que não possuiam anotação associada.
ensembl_ids <- sub("\\).*", "", sub(".*\\(", "", row.names(exp_matrix)))
row.names(exp_matrix) = ensembl_ids
ann <- select(org.Hs.eg.db,keys=ensembl_ids,keytype='ENSEMBL',columns=c('ENTREZID',"ENSEMBL","SYMBOL","GENENAME"))## 'select()' returned 1:many mapping between keys and columns
# Remove duplicated rows based on Ensembl_id
ann <- ann %>% distinct(ENSEMBL, .keep_all = TRUE)
#Número de gene com anotação
sum(is.na(ann$ENTREZID))## [1] 52263
## [1] 52439 1020
#Remover genes da matrix de expressao sem anotação
row.names(exp_matrix) <- ensembl_ids
exp_matrix <- exp_matrix[ !(rownames(exp_matrix) %in% noann$ENSEMBL), ]
#Remover genes da dataframe da anotação sem anotação
ann <- ann[ !(ann$ENSEMBL %in% noann$ENSEMBL), ]
dim(exp_matrix)## [1] 176 1020
## [1] 176 4
Foi efetuada a análise de expressão diferencial para 3 metadados específicos: para a variável “type”, para a variável “mut_counts” e para uma combinação destas. Para efetuar esta análise começou-se por carregar a matriz de contagens exp_matrix num objeto DGEList. De seguida foram carregadas as anotações neste objeto, a matriz de design para o metadado a ser usado foi construída e foram definidos os contrastes a analisar (contrast). A seguir, foi efetuada uma filtragem das contagens com baixos valores de expressão com recurso a função filterByExpr do package edgeR, sendo aqui fornecida a matriz de design. Foi verificado o tamanho das libraries associadas às contagens e calculados os fatores de normalização. O package limma foi aqui usado sobre a forma de limma voom para transformar as contagens em valores \(log2\) normalizados, sendo obtido um gráfico de média-variância. Seguidamente a expressão diferencial foi testada utilizando limma trend seguindo a seguinte pipeline:
Este último ponto foi repetido após a filtragem dos resultados de expressão com recurso a função treat, tendo se definido um valor de cut-off de \(log2(1.2)\), devido a este ser o mínimo considerado para relevancia biológica. Por último, com recurso à anotação, foi realizado com a função goana do package limma a análise das ontologias genéticas que se encontravam mais representadas nos genes diferencialmente expressos resultantes da análise anterior.
#Carregar no EdgeR
y <- DGEList(counts = exp_matrix)
#Carregar anotação dos genes
y$genes <- ann
#Design for mutation types
Cancer_type <- meta_intersect$type
design = model.matrix(~0+Cancer_type, data = y$samples)
colnames(design) <- levels(Cancer_type)
design## Metastasis Primary
## ACH-000001 1 0
## ACH-000002 0 1
## ACH-000006 0 1
## ACH-000007 0 1
## ACH-000009 0 1
## ACH-000011 1 0
## ACH-000012 0 1
## ACH-000013 1 0
## ACH-000014 1 0
## ACH-000015 0 1
## ACH-000016 1 0
## ACH-000017 1 0
## ACH-000018 0 1
## ACH-000019 1 0
## ACH-000021 1 0
## ACH-000022 1 0
## ACH-000023 1 0
## ACH-000024 0 1
## ACH-000026 1 0
## ACH-000027 0 1
## ACH-000028 1 0
## ACH-000029 0 1
## ACH-000030 0 1
## ACH-000031 0 1
## ACH-000033 1 0
## ACH-000035 1 0
## ACH-000039 1 0
## ACH-000040 0 1
## ACH-000041 0 1
## ACH-000042 0 1
## ACH-000043 1 0
## ACH-000044 1 0
## ACH-000045 0 1
## ACH-000046 1 0
## ACH-000048 0 1
## ACH-000050 1 0
## ACH-000051 0 1
## ACH-000052 0 1
## ACH-000054 1 0
## ACH-000055 1 0
## ACH-000056 1 0
## ACH-000059 0 1
## ACH-000060 0 1
## ACH-000062 0 1
## ACH-000065 0 1
## ACH-000066 1 0
## ACH-000067 0 1
## ACH-000070 0 1
## ACH-000073 0 1
## ACH-000075 0 1
## ACH-000078 1 0
## ACH-000082 0 1
## ACH-000085 0 1
## ACH-000087 0 1
## ACH-000089 1 0
## ACH-000090 1 0
## ACH-000091 1 0
## ACH-000092 1 0
## ACH-000093 0 1
## ACH-000094 1 0
## ACH-000096 0 1
## ACH-000097 1 0
## ACH-000098 0 1
## ACH-000100 1 0
## ACH-000102 0 1
## ACH-000103 1 0
## ACH-000105 0 1
## ACH-000107 0 1
## ACH-000108 1 0
## ACH-000109 0 1
## ACH-000111 0 1
## ACH-000113 0 1
## ACH-000114 1 0
## ACH-000115 1 0
## ACH-000116 1 0
## ACH-000117 1 0
## ACH-000118 1 0
## ACH-000121 1 0
## ACH-000123 0 1
## ACH-000124 0 1
## ACH-000125 1 0
## ACH-000126 0 1
## ACH-000127 0 1
## ACH-000129 1 0
## ACH-000131 0 1
## ACH-000132 0 1
## ACH-000133 0 1
## ACH-000135 0 1
## ACH-000136 0 1
## ACH-000137 0 1
## ACH-000138 1 0
## ACH-000139 0 1
## ACH-000140 1 0
## ACH-000142 0 1
## ACH-000144 1 0
## ACH-000145 0 1
## ACH-000146 0 1
## ACH-000147 1 0
## ACH-000148 0 1
## ACH-000149 1 0
## ACH-000150 0 1
## ACH-000152 0 1
## ACH-000153 1 0
## ACH-000155 0 1
## ACH-000157 0 1
## ACH-000158 0 1
## ACH-000159 0 1
## ACH-000161 1 0
## ACH-000163 0 1
## ACH-000164 0 1
## ACH-000166 0 1
## ACH-000167 1 0
## ACH-000168 0 1
## ACH-000169 0 1
## ACH-000171 0 1
## ACH-000172 1 0
## ACH-000174 0 1
## ACH-000176 0 1
## ACH-000177 1 0
## ACH-000178 1 0
## ACH-000179 1 0
## ACH-000181 0 1
## ACH-000183 0 1
## ACH-000186 0 1
## ACH-000187 0 1
## ACH-000188 0 1
## ACH-000189 0 1
## ACH-000191 1 0
## ACH-000192 0 1
## ACH-000193 0 1
## ACH-000194 0 1
## ACH-000196 0 1
## ACH-000197 0 1
## ACH-000200 0 1
## ACH-000201 0 1
## ACH-000202 0 1
## ACH-000203 1 0
## ACH-000204 0 1
## ACH-000205 1 0
## ACH-000207 1 0
## ACH-000210 1 0
## ACH-000211 0 1
## ACH-000212 1 0
## ACH-000213 1 0
## ACH-000217 0 1
## ACH-000219 0 1
## ACH-000221 0 1
## ACH-000222 1 0
## ACH-000223 0 1
## ACH-000227 1 0
## ACH-000228 0 1
## ACH-000229 0 1
## ACH-000231 0 1
## ACH-000232 0 1
## ACH-000234 0 1
## ACH-000235 0 1
## ACH-000236 0 1
## ACH-000237 0 1
## ACH-000238 0 1
## ACH-000239 1 0
## ACH-000240 0 1
## ACH-000242 0 1
## ACH-000244 0 1
## ACH-000246 1 0
## ACH-000247 1 0
## ACH-000248 1 0
## ACH-000249 0 1
## ACH-000250 0 1
## ACH-000252 0 1
## ACH-000253 1 0
## ACH-000255 1 0
## ACH-000256 1 0
## ACH-000257 1 0
## ACH-000258 1 0
## ACH-000259 0 1
## ACH-000260 1 0
## ACH-000261 1 0
## ACH-000263 0 1
## ACH-000264 1 0
## ACH-000265 1 0
## ACH-000269 0 1
## ACH-000270 0 1
## ACH-000271 1 0
## ACH-000272 0 1
## ACH-000273 0 1
## ACH-000275 1 0
## ACH-000276 0 1
## ACH-000277 0 1
## ACH-000278 1 0
## ACH-000280 0 1
## ACH-000281 0 1
## ACH-000282 1 0
## ACH-000285 0 1
## ACH-000286 0 1
## ACH-000288 0 1
## ACH-000290 1 0
## ACH-000291 1 0
## ACH-000292 1 0
## ACH-000293 0 1
## ACH-000294 0 1
## ACH-000296 1 0
## ACH-000297 1 0
## ACH-000298 1 0
## ACH-000300 1 0
## ACH-000301 0 1
## ACH-000302 0 1
## ACH-000303 1 0
## ACH-000304 1 0
## ACH-000306 0 1
## ACH-000307 1 0
## ACH-000308 1 0
## ACH-000310 1 0
## ACH-000311 1 0
## ACH-000312 1 0
## ACH-000313 0 1
## ACH-000314 0 1
## ACH-000315 1 0
## ACH-000317 0 1
## ACH-000318 0 1
## ACH-000320 0 1
## ACH-000322 1 0
## ACH-000323 0 1
## ACH-000324 0 1
## ACH-000325 1 0
## ACH-000327 0 1
## ACH-000329 0 1
## ACH-000330 1 0
## ACH-000332 1 0
## ACH-000333 0 1
## ACH-000334 1 0
## ACH-000335 1 0
## ACH-000336 0 1
## ACH-000338 0 1
## ACH-000341 1 0
## ACH-000343 0 1
## ACH-000344 1 0
## ACH-000345 1 0
## ACH-000347 0 1
## ACH-000348 1 0
## ACH-000349 0 1
## ACH-000350 1 0
## ACH-000351 1 0
## ACH-000352 1 0
## ACH-000353 0 1
## ACH-000354 1 0
## ACH-000355 1 0
## ACH-000356 1 0
## ACH-000358 1 0
## ACH-000359 0 1
## ACH-000360 1 0
## ACH-000361 1 0
## ACH-000362 0 1
## ACH-000363 0 1
## ACH-000364 0 1
## ACH-000365 1 0
## ACH-000366 1 0
## ACH-000367 1 0
## ACH-000368 0 1
## ACH-000373 0 1
## ACH-000374 0 1
## ACH-000375 0 1
## ACH-000376 0 1
## ACH-000378 1 0
## ACH-000379 1 0
## ACH-000380 0 1
## ACH-000381 1 0
## ACH-000382 1 0
## ACH-000383 0 1
## ACH-000384 0 1
## ACH-000386 0 1
## ACH-000388 1 0
## ACH-000389 0 1
## ACH-000390 0 1
## ACH-000391 1 0
## ACH-000392 1 0
## ACH-000393 0 1
## ACH-000394 1 0
## ACH-000395 0 1
## ACH-000396 0 1
## ACH-000397 0 1
## ACH-000399 1 0
## ACH-000400 1 0
## ACH-000401 1 0
## ACH-000403 1 0
## ACH-000404 0 1
## ACH-000406 1 0
## ACH-000407 0 1
## ACH-000409 1 0
## ACH-000410 0 1
## ACH-000411 0 1
## ACH-000412 0 1
## ACH-000414 1 0
## ACH-000415 0 1
## ACH-000416 1 0
## ACH-000417 0 1
## ACH-000418 0 1
## ACH-000419 0 1
## ACH-000420 0 1
## ACH-000421 0 1
## ACH-000422 0 1
## ACH-000423 1 0
## ACH-000424 0 1
## ACH-000427 1 0
## ACH-000429 0 1
## ACH-000430 0 1
## ACH-000431 1 0
## ACH-000433 1 0
## ACH-000434 1 0
## ACH-000435 1 0
## ACH-000437 0 1
## ACH-000438 0 1
## ACH-000441 1 0
## ACH-000442 0 1
## ACH-000443 0 1
## ACH-000444 1 0
## ACH-000445 0 1
## ACH-000446 1 0
## ACH-000447 0 1
## ACH-000448 1 0
## ACH-000449 0 1
## ACH-000450 0 1
## ACH-000451 0 1
## ACH-000453 0 1
## ACH-000454 1 0
## ACH-000456 0 1
## ACH-000457 1 0
## ACH-000458 1 0
## ACH-000459 0 1
## ACH-000460 1 0
## ACH-000463 1 0
## ACH-000464 0 1
## ACH-000465 1 0
## ACH-000466 1 0
## ACH-000468 0 1
## ACH-000469 0 1
## ACH-000470 0 1
## ACH-000472 1 0
## ACH-000473 0 1
## ACH-000475 0 1
## ACH-000476 0 1
## ACH-000477 1 0
## ACH-000478 0 1
## ACH-000479 0 1
## ACH-000480 0 1
## ACH-000481 0 1
## ACH-000482 0 1
## ACH-000483 0 1
## ACH-000484 0 1
## ACH-000485 1 0
## ACH-000487 1 0
## ACH-000488 0 1
## ACH-000489 0 1
## ACH-000490 1 0
## ACH-000491 1 0
## ACH-000493 0 1
## ACH-000495 0 1
## ACH-000496 1 0
## ACH-000501 0 1
## ACH-000502 1 0
## ACH-000503 0 1
## ACH-000504 0 1
## ACH-000505 0 1
## ACH-000506 1 0
## ACH-000507 1 0
## ACH-000508 1 0
## ACH-000510 1 0
## ACH-000511 1 0
## ACH-000514 1 0
## ACH-000515 1 0
## ACH-000517 1 0
## ACH-000518 0 1
## ACH-000520 1 0
## ACH-000521 1 0
## ACH-000522 0 1
## ACH-000523 1 0
## ACH-000524 1 0
## ACH-000525 1 0
## ACH-000526 0 1
## ACH-000527 1 0
## ACH-000528 1 0
## ACH-000530 0 1
## ACH-000532 1 0
## ACH-000534 1 0
## ACH-000535 0 1
## ACH-000536 0 1
## ACH-000538 0 1
## ACH-000539 0 1
## ACH-000541 0 1
## ACH-000542 1 0
## ACH-000544 0 1
## ACH-000545 0 1
## ACH-000546 1 0
## ACH-000547 0 1
## ACH-000548 0 1
## ACH-000550 0 1
## ACH-000551 1 0
## ACH-000552 0 1
## ACH-000553 0 1
## ACH-000554 0 1
## ACH-000555 0 1
## ACH-000557 0 1
## ACH-000558 0 1
## ACH-000559 0 1
## ACH-000561 1 0
## ACH-000562 1 0
## ACH-000563 1 0
## ACH-000564 0 1
## ACH-000565 0 1
## ACH-000566 0 1
## ACH-000568 0 1
## ACH-000569 0 1
## ACH-000570 0 1
## ACH-000571 0 1
## ACH-000572 0 1
## ACH-000573 1 0
## ACH-000574 0 1
## ACH-000576 0 1
## ACH-000577 1 0
## ACH-000578 0 1
## ACH-000579 0 1
## ACH-000580 0 1
## ACH-000581 1 0
## ACH-000582 1 0
## ACH-000584 0 1
## ACH-000585 0 1
## ACH-000586 1 0
## ACH-000587 0 1
## ACH-000588 0 1
## ACH-000589 1 0
## ACH-000590 0 1
## ACH-000593 0 1
## ACH-000594 1 0
## ACH-000595 0 1
## ACH-000596 0 1
## ACH-000598 0 1
## ACH-000599 0 1
## ACH-000600 0 1
## ACH-000601 0 1
## ACH-000603 1 0
## ACH-000606 0 1
## ACH-000607 0 1
## ACH-000608 0 1
## ACH-000609 0 1
## ACH-000610 0 1
## ACH-000611 1 0
## ACH-000613 0 1
## ACH-000614 1 0
## ACH-000616 1 0
## ACH-000617 1 0
## ACH-000619 0 1
## ACH-000620 0 1
## ACH-000621 1 0
## ACH-000622 0 1
## ACH-000623 0 1
## ACH-000624 0 1
## ACH-000625 0 1
## ACH-000627 1 0
## ACH-000628 0 1
## ACH-000631 0 1
## ACH-000632 1 0
## ACH-000633 0 1
## ACH-000635 1 0
## ACH-000637 0 1
## ACH-000638 1 0
## ACH-000639 1 0
## ACH-000640 0 1
## ACH-000643 0 1
## ACH-000644 0 1
## ACH-000645 0 1
## ACH-000646 0 1
## ACH-000647 0 1
## ACH-000648 1 0
## ACH-000649 0 1
## ACH-000650 1 0
## ACH-000651 1 0
## ACH-000652 1 0
## ACH-000653 0 1
## ACH-000655 0 1
## ACH-000656 1 0
## ACH-000657 0 1
## ACH-000658 0 1
## ACH-000659 1 0
## ACH-000660 0 1
## ACH-000662 1 0
## ACH-000663 1 0
## ACH-000665 1 0
## ACH-000666 1 0
## ACH-000667 0 1
## ACH-000668 0 1
## ACH-000669 0 1
## ACH-000670 1 0
## ACH-000672 1 0
## ACH-000674 1 0
## ACH-000675 0 1
## ACH-000677 0 1
## ACH-000678 1 0
## ACH-000679 0 1
## ACH-000680 0 1
## ACH-000681 0 1
## ACH-000683 1 0
## ACH-000684 0 1
## ACH-000685 1 0
## ACH-000686 0 1
## ACH-000688 0 1
## ACH-000691 0 1
## ACH-000692 0 1
## ACH-000693 0 1
## ACH-000694 1 0
## ACH-000695 1 0
## ACH-000696 0 1
## ACH-000697 0 1
## ACH-000698 0 1
## ACH-000699 0 1
## ACH-000701 0 1
## ACH-000703 1 0
## ACH-000704 1 0
## ACH-000705 0 1
## ACH-000706 0 1
## ACH-000708 1 0
## ACH-000709 0 1
## ACH-000710 0 1
## ACH-000711 1 0
## ACH-000712 0 1
## ACH-000713 0 1
## ACH-000714 0 1
## ACH-000718 1 0
## ACH-000719 1 0
## ACH-000720 0 1
## ACH-000721 1 0
## ACH-000722 1 0
## ACH-000724 0 1
## ACH-000725 0 1
## ACH-000729 0 1
## ACH-000730 1 0
## ACH-000731 0 1
## ACH-000732 0 1
## ACH-000733 0 1
## ACH-000734 0 1
## ACH-000735 0 1
## ACH-000736 1 0
## ACH-000737 1 0
## ACH-000738 0 1
## ACH-000739 0 1
## ACH-000740 0 1
## ACH-000741 0 1
## ACH-000743 0 1
## ACH-000744 1 0
## ACH-000745 0 1
## ACH-000746 1 0
## ACH-000747 0 1
## ACH-000748 0 1
## ACH-000749 1 0
## ACH-000750 1 0
## ACH-000752 1 0
## ACH-000753 1 0
## ACH-000755 0 1
## ACH-000756 0 1
## ACH-000758 1 0
## ACH-000759 1 0
## ACH-000761 1 0
## ACH-000763 0 1
## ACH-000764 0 1
## ACH-000765 1 0
## ACH-000766 1 0
## ACH-000767 1 0
## ACH-000768 1 0
## ACH-000769 0 1
## ACH-000771 0 1
## ACH-000774 0 1
## ACH-000775 0 1
## ACH-000776 0 1
## ACH-000777 0 1
## ACH-000778 1 0
## ACH-000780 1 0
## ACH-000781 1 0
## ACH-000782 0 1
## ACH-000783 1 0
## ACH-000784 0 1
## ACH-000785 1 0
## ACH-000787 0 1
## ACH-000788 1 0
## ACH-000789 0 1
## ACH-000790 0 1
## ACH-000791 0 1
## ACH-000792 0 1
## ACH-000793 1 0
## ACH-000794 1 0
## ACH-000796 0 1
## ACH-000797 0 1
## ACH-000798 0 1
## ACH-000799 1 0
## ACH-000800 1 0
## ACH-000802 0 1
## ACH-000803 1 0
## ACH-000804 1 0
## ACH-000805 1 0
## ACH-000808 0 1
## ACH-000809 0 1
## ACH-000810 1 0
## ACH-000811 1 0
## ACH-000812 1 0
## ACH-000813 1 0
## ACH-000815 1 0
## ACH-000816 1 0
## ACH-000817 0 1
## ACH-000818 0 1
## ACH-000819 0 1
## ACH-000820 0 1
## ACH-000821 0 1
## ACH-000822 1 0
## ACH-000823 0 1
## ACH-000824 0 1
## ACH-000825 0 1
## ACH-000826 0 1
## ACH-000828 1 0
## ACH-000830 1 0
## ACH-000831 1 0
## ACH-000832 0 1
## ACH-000833 1 0
## ACH-000834 1 0
## ACH-000835 1 0
## ACH-000837 0 1
## ACH-000838 0 1
## ACH-000839 0 1
## ACH-000840 0 1
## ACH-000841 1 0
## ACH-000842 0 1
## ACH-000843 1 0
## ACH-000844 0 1
## ACH-000845 0 1
## ACH-000846 0 1
## ACH-000847 1 0
## ACH-000848 0 1
## ACH-000849 1 0
## ACH-000850 1 0
## ACH-000851 0 1
## ACH-000852 0 1
## ACH-000853 1 0
## ACH-000855 0 1
## ACH-000856 1 0
## ACH-000857 0 1
## ACH-000858 1 0
## ACH-000859 0 1
## ACH-000860 0 1
## ACH-000861 0 1
## ACH-000862 0 1
## ACH-000863 0 1
## ACH-000864 0 1
## ACH-000865 0 1
## ACH-000866 1 0
## ACH-000867 1 0
## ACH-000868 0 1
## ACH-000869 1 0
## ACH-000870 1 0
## ACH-000871 1 0
## ACH-000873 0 1
## ACH-000874 0 1
## ACH-000875 0 1
## ACH-000876 1 0
## ACH-000877 0 1
## ACH-000878 0 1
## ACH-000879 0 1
## ACH-000880 0 1
## ACH-000881 0 1
## ACH-000882 1 0
## ACH-000883 0 1
## ACH-000884 1 0
## ACH-000885 0 1
## ACH-000886 1 0
## ACH-000888 0 1
## ACH-000889 0 1
## ACH-000890 0 1
## ACH-000891 0 1
## ACH-000892 0 1
## ACH-000893 0 1
## ACH-000894 1 0
## ACH-000895 0 1
## ACH-000896 0 1
## ACH-000897 1 0
## ACH-000898 0 1
## ACH-000899 1 0
## ACH-000900 0 1
## ACH-000901 0 1
## ACH-000902 1 0
## ACH-000903 1 0
## ACH-000904 1 0
## ACH-000906 0 1
## ACH-000907 0 1
## ACH-000908 0 1
## ACH-000909 0 1
## ACH-000910 1 0
## ACH-000911 1 0
## ACH-000912 0 1
## ACH-000913 0 1
## ACH-000915 0 1
## ACH-000916 1 0
## ACH-000919 0 1
## ACH-000921 1 0
## ACH-000924 0 1
## ACH-000925 1 0
## ACH-000926 0 1
## ACH-000927 0 1
## ACH-000928 0 1
## ACH-000929 1 0
## ACH-000930 0 1
## ACH-000931 0 1
## ACH-000932 1 0
## ACH-000934 1 0
## ACH-000936 1 0
## ACH-000938 0 1
## ACH-000939 0 1
## ACH-000940 1 0
## ACH-000941 0 1
## ACH-000942 0 1
## ACH-000943 0 1
## ACH-000945 1 0
## ACH-000946 0 1
## ACH-000947 1 0
## ACH-000948 0 1
## ACH-000949 1 0
## ACH-000950 1 0
## ACH-000951 0 1
## ACH-000952 1 0
## ACH-000953 1 0
## ACH-000954 0 1
## ACH-000955 1 0
## ACH-000956 0 1
## ACH-000957 0 1
## ACH-000958 0 1
## ACH-000960 0 1
## ACH-000961 0 1
## ACH-000962 1 0
## ACH-000963 1 0
## ACH-000965 0 1
## ACH-000966 0 1
## ACH-000967 0 1
## ACH-000968 1 0
## ACH-000969 0 1
## ACH-000971 0 1
## ACH-000972 0 1
## ACH-000973 0 1
## ACH-000974 1 0
## ACH-000976 1 0
## ACH-000977 1 0
## ACH-000978 0 1
## ACH-000980 1 0
## ACH-000981 0 1
## ACH-000982 0 1
## ACH-000984 0 1
## ACH-000985 0 1
## ACH-000987 1 0
## ACH-000989 1 0
## ACH-000990 0 1
## ACH-000993 0 1
## ACH-000994 0 1
## ACH-000995 0 1
## ACH-000996 0 1
## ACH-000997 0 1
## ACH-000998 0 1
## ACH-001001 0 1
## ACH-001041 1 0
## ACH-001048 1 0
## ACH-001061 0 1
## ACH-001075 1 0
## ACH-001078 0 1
## ACH-001106 0 1
## ACH-001113 0 1
## ACH-001129 0 1
## ACH-001145 1 0
## ACH-001151 1 0
## ACH-001163 1 0
## ACH-001184 1 0
## ACH-001190 1 0
## ACH-001192 1 0
## ACH-001194 1 0
## ACH-001200 1 0
## ACH-001210 1 0
## ACH-001229 0 1
## ACH-001239 1 0
## ACH-001277 1 0
## ACH-001278 1 0
## ACH-001283 1 0
## ACH-001306 0 1
## ACH-001307 0 1
## ACH-001318 0 1
## ACH-001321 0 1
## ACH-001328 0 1
## ACH-001329 0 1
## ACH-001332 0 1
## ACH-001333 0 1
## ACH-001334 0 1
## ACH-001335 0 1
## ACH-001336 1 0
## ACH-001339 0 1
## ACH-001340 1 0
## ACH-001341 0 1
## ACH-001344 1 0
## ACH-001345 0 1
## ACH-001346 0 1
## ACH-001347 0 1
## ACH-001353 0 1
## ACH-001354 0 1
## ACH-001356 0 1
## ACH-001360 1 0
## ACH-001366 1 0
## ACH-001367 1 0
## ACH-001368 1 0
## ACH-001369 0 1
## ACH-001370 0 1
## ACH-001373 1 0
## ACH-001374 1 0
## ACH-001375 0 1
## ACH-001376 1 0
## ACH-001377 0 1
## ACH-001378 0 1
## ACH-001379 1 0
## ACH-001380 1 0
## ACH-001382 1 0
## ACH-001384 1 0
## ACH-001385 1 0
## ACH-001386 1 0
## ACH-001388 0 1
## ACH-001389 1 0
## ACH-001390 0 1
## ACH-001391 0 1
## ACH-001392 1 0
## ACH-001394 1 0
## ACH-001395 1 0
## ACH-001396 1 0
## ACH-001398 0 1
## ACH-001399 1 0
## ACH-001400 0 1
## ACH-001401 0 1
## ACH-001402 0 1
## ACH-001403 1 0
## ACH-001407 1 0
## ACH-001408 1 0
## ACH-001409 0 1
## ACH-001410 1 0
## ACH-001411 0 1
## ACH-001412 0 1
## ACH-001413 0 1
## ACH-001414 0 1
## ACH-001415 0 1
## ACH-001416 0 1
## ACH-001418 0 1
## ACH-001419 0 1
## ACH-001421 0 1
## ACH-001422 0 1
## ACH-001433 1 0
## ACH-001441 1 0
## ACH-001442 1 0
## ACH-001443 0 1
## ACH-001450 0 1
## ACH-001451 0 1
## ACH-001453 0 1
## ACH-001454 0 1
## ACH-001456 0 1
## ACH-001458 0 1
## ACH-001459 0 1
## ACH-001460 0 1
## ACH-001461 0 1
## ACH-001484 0 1
## ACH-001485 0 1
## ACH-001494 0 1
## ACH-001495 0 1
## ACH-001496 0 1
## ACH-001497 0 1
## ACH-001498 1 0
## ACH-001500 0 1
## ACH-001509 0 1
## ACH-001510 0 1
## ACH-001511 0 1
## ACH-001513 1 0
## ACH-001515 1 0
## ACH-001516 0 1
## ACH-001517 0 1
## ACH-001518 0 1
## ACH-001519 0 1
## ACH-001520 0 1
## ACH-001521 0 1
## ACH-001522 1 0
## ACH-001523 0 1
## ACH-001524 0 1
## ACH-001525 1 0
## ACH-001526 0 1
## ACH-001528 1 0
## ACH-001529 0 1
## ACH-001530 1 0
## ACH-001532 1 0
## ACH-001536 0 1
## ACH-001538 0 1
## ACH-001539 0 1
## ACH-001540 0 1
## ACH-001541 0 1
## ACH-001542 1 0
## ACH-001543 0 1
## ACH-001548 1 0
## ACH-001549 0 1
## ACH-001550 1 0
## ACH-001551 1 0
## ACH-001552 0 1
## ACH-001554 0 1
## ACH-001555 0 1
## ACH-001556 0 1
## ACH-001557 0 1
## ACH-001558 0 1
## ACH-001559 0 1
## ACH-001560 0 1
## ACH-001561 0 1
## ACH-001562 0 1
## ACH-001563 1 0
## ACH-001566 1 0
## ACH-001567 1 0
## ACH-001568 1 0
## ACH-001569 1 0
## ACH-001570 1 0
## ACH-001573 1 0
## ACH-001574 0 1
## ACH-001577 0 1
## ACH-001578 0 1
## ACH-001603 0 1
## ACH-001605 0 1
## ACH-001607 1 0
## ACH-001608 0 1
## ACH-001609 0 1
## ACH-001610 0 1
## ACH-001611 0 1
## ACH-001613 0 1
## ACH-001616 0 1
## ACH-001617 0 1
## ACH-001618 0 1
## ACH-001619 1 0
## ACH-001622 0 1
## ACH-001623 0 1
## ACH-001624 0 1
## ACH-001625 1 0
## ACH-001626 1 0
## ACH-001627 0 1
## ACH-001628 1 0
## ACH-001630 1 0
## ACH-001632 1 0
## ACH-001634 0 1
## ACH-001636 0 1
## ACH-001638 0 1
## ACH-001642 0 1
## ACH-001645 0 1
## ACH-001647 1 0
## ACH-001648 0 1
## ACH-001649 0 1
## ACH-001650 0 1
## ACH-001651 0 1
## ACH-001652 0 1
## ACH-001653 0 1
## ACH-001654 0 1
## ACH-001655 0 1
## ACH-001656 1 0
## ACH-001664 1 0
## ACH-001668 0 1
## ACH-001670 0 1
## ACH-001673 0 1
## ACH-001674 0 1
## ACH-001677 0 1
## ACH-001685 0 1
## ACH-001687 0 1
## ACH-001688 0 1
## ACH-001690 0 1
## ACH-001692 0 1
## ACH-001694 0 1
## ACH-001698 0 1
## ACH-001699 0 1
## ACH-001702 1 0
## ACH-001703 1 0
## ACH-001709 0 1
## ACH-001711 0 1
## ACH-001719 0 1
## ACH-001740 1 0
## ACH-001765 1 0
## ACH-001786 0 1
## ACH-001794 0 1
## ACH-001807 0 1
## ACH-001814 0 1
## ACH-001818 1 0
## ACH-001819 1 0
## ACH-001820 1 0
## ACH-001850 1 0
## ACH-001861 1 0
## ACH-001961 1 0
## ACH-001991 0 1
## ACH-002011 0 1
## ACH-002015 0 1
## ACH-002016 0 1
## ACH-002017 1 0
## ACH-002018 1 0
## ACH-002019 0 1
## ACH-002022 0 1
## ACH-002023 0 1
## ACH-002024 0 1
## ACH-002025 0 1
## ACH-002026 0 1
## ACH-002027 0 1
## ACH-002029 0 1
## ACH-002038 0 1
## ACH-002039 1 0
## ACH-002041 0 1
## ACH-002042 0 1
## ACH-002044 0 1
## ACH-002045 0 1
## ACH-002046 0 1
## ACH-002059 0 1
## ACH-002062 0 1
## ACH-002065 1 0
## ACH-002066 0 1
## ACH-002067 0 1
## ACH-002069 0 1
## ACH-002446 1 0
## ACH-002508 1 0
## ACH-002509 1 0
## ACH-002510 1 0
## ACH-002511 0 1
## attr(,"assign")
## [1] 1 1
## attr(,"contrasts")
## attr(,"contrasts")$Cancer_type
## [1] "contr.treatment"
#Make contrasts
contrast <- makeContrasts(Metastasis-Primary, levels=design)
keep <- filterByExpr(y, design)
y <- y[keep, , keep.lib.sizes=FALSE]
barplot(y$samples$lib.size,names=colnames(y),las=2)
# Add a title to the plot
title("Barplot of library sizes")#Normalization for composition bias
y <- calcNormFactors(y)
#Start limma voom pipeline
par(mfrow=c(1,1))
v <- voom(y,design,plot = TRUE)#Limma Trend
fit <- lmFit(v, design)
fit.cont <- contrasts.fit(fit, contrast)
fit.cont <- eBayes(fit.cont)
dim(fit.cont)## [1] 35 1
## [1] 35 4
## Metastasis - Primary
## Down 1
## NotSig 32
## Up 2
## ENSEMBL ENTREZID SYMBOL
## ENSG00000281706 ENSG00000281706 100507173 LINC01012
## ENSG00000229951 ENSG00000229951 403150 FOSL2-AS1
## ENSG00000285278 ENSG00000285278 109729173 TFAP2A-AS2
## ENSG00000246731 ENSG00000246731 85001 MGC16275
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000248858 ENSG00000248858 441369 FLJ46284
## ENSG00000197180 ENSG00000197180 158960 ATP6AP1-DT
## ENSG00000280987 ENSG00000280987 9782 MATR3
## ENSG00000267281 ENSG00000267281 114108587 ATF7-NPFF
## ENSG00000223855 ENSG00000223855 441307 PDGFA-DT
## GENENAME logFC AveExpr
## ENSG00000281706 long intergenic non-protein coding RNA 1012 0.6200477 11.47172
## ENSG00000229951 FOSL2 antisense RNA 1 -0.5395807 10.42939
## ENSG00000285278 TFAP2A antisense RNA 2 0.3315993 13.71761
## ENSG00000246731 uncharacterized protein MGC16275 0.2807318 10.89208
## ENSG00000273032 DiGeorge syndrome critical region gene 5 0.3402343 12.09792
## ENSG00000248858 uncharacterized LOC441369 0.1952041 10.70754
## ENSG00000197180 ATP6AP1 divergent transcript 0.1271285 13.84828
## ENSG00000280987 matrin 3 0.1927947 17.74129
## ENSG00000267281 ATF7-NPFF readthrough -0.1209122 13.58317
## ENSG00000223855 PDGFA divergent transcript -0.2732992 11.21319
## t P.Value adj.P.Val B
## ENSG00000281706 3.801568 0.0001522628 0.005329197 0.6372128
## ENSG00000229951 -3.279611 0.0010744824 0.018803442 -1.1169448
## ENSG00000285278 3.072612 0.0021779664 0.025409608 -2.1245707
## ENSG00000246731 2.662149 0.0078858737 0.069001395 -2.8818407
## ENSG00000273032 2.207080 0.0275294480 0.192706136 -4.0075732
## ENSG00000248858 1.767113 0.0775067336 0.271273568 -4.7928239
## ENSG00000197180 1.978832 0.0481022370 0.227853163 -4.8591418
## ENSG00000280987 2.030138 0.0426003094 0.227853163 -4.8664501
## ENSG00000267281 -1.897693 0.0580172719 0.227853163 -4.9475291
## ENSG00000223855 -1.659033 0.0974149510 0.309956662 -4.9644812
#Genome - Wide plots
plotMD(fit.cont,coef=1,status=summa.fit[,"Metastasis - Primary"], values = c(-1, 1), hl.col=c("blue","red"), main = "Metastasis - Primary")glXYPlot(x=fit.cont$coefficients[,1], y=fit.cont$lods[,1],
xlab="logFC", ylab="B", main="Metastasis - Primary",
counts=v$E, groups=Cancer_type, status=summa.fit[,1],
anno=fit.cont$genes, side.main="ENSEMBL", folder="cancer_type_volcano", html = "cancer_type_volcano")
#Testing relative to a threshold - TREAT
fit.treat <- treat(fit.cont,lfc=log2(1.2))
res.treat <- decideTests(fit.treat)
summary(res.treat)## Metastasis - Primary
## Down 0
## NotSig 35
## Up 0
## ENSEMBL ENTREZID SYMBOL
## ENSG00000281706 ENSG00000281706 100507173 LINC01012
## ENSG00000229951 ENSG00000229951 403150 FOSL2-AS1
## ENSG00000285278 ENSG00000285278 109729173 TFAP2A-AS2
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000246731 ENSG00000246731 85001 MGC16275
## ENSG00000223855 ENSG00000223855 441307 PDGFA-DT
## ENSG00000243902 ENSG00000243902 114794 ELFN2
## ENSG00000267313 ENSG00000267313 641516 KC6
## ENSG00000248858 ENSG00000248858 441369 FLJ46284
## ENSG00000268592 ENSG00000268592 100652739 RAET1E-AS1
## GENENAME
## ENSG00000281706 long intergenic non-protein coding RNA 1012
## ENSG00000229951 FOSL2 antisense RNA 1
## ENSG00000285278 TFAP2A antisense RNA 2
## ENSG00000273032 DiGeorge syndrome critical region gene 5
## ENSG00000246731 uncharacterized protein MGC16275
## ENSG00000223855 PDGFA divergent transcript
## ENSG00000243902 extracellular leucine rich repeat and fibronectin type III domain containing 2
## ENSG00000267313 keratoconus gene 6
## ENSG00000248858 uncharacterized LOC441369
## ENSG00000268592 RAET1E antisense RNA 1
## logFC AveExpr t P.Value adj.P.Val
## ENSG00000281706 0.6200477 11.471720 2.18888055 0.01441528 0.5045346
## ENSG00000229951 -0.5395807 10.429390 -1.68086882 0.04654712 0.8145746
## ENSG00000285278 0.3315993 13.717608 0.63532463 0.26267927 0.9999996
## ENSG00000273032 0.3402343 12.097923 0.50079106 0.30836135 0.9999996
## ENSG00000246731 0.2807318 10.892082 0.16782254 0.43337814 0.9999996
## ENSG00000223855 -0.2732992 11.213187 -0.06231134 0.47574749 0.9999996
## ENSG00000243902 -0.2424999 9.121094 0.00000000 0.55010115 0.9999996
## ENSG00000267313 0.2159914 9.033170 0.00000000 0.59947425 0.9999996
## ENSG00000248858 0.1952041 10.707545 0.00000000 0.73035687 0.9999996
## ENSG00000268592 0.1641491 11.340562 0.00000000 0.74555647 0.9999996
glMDPlot(fit.treat, coef=1, counts=v$E, groups=Cancer_type,
status=res.treat, side.main="ENSEMBL", main="Metastasis - Primary",
folder="cancer_type_md", html = 'cancer_type_md')
#GO enrichment using goana on Treat results
go <- goana(fit.treat, coef="Metastasis - Primary", geneid = fit.treat$genes$ENTREZID, species = "Hs")## No DE genes
## data frame with 0 columns and 0 rows
Para esta análise foram definidos como contrastes Metastasis - Primary. Da filtragem efetuada, permaneceram na análise \(17049\) linhagens das \(30639\) iniciais. A análise do gráfico de barras permite inferir que existem linhagens celulares com library sizes bastante superiores à média. O output gráfico do limma voom demonstra que ocorre uma dispersão dos pontos principalmente para valores de \(log2 < 10\).
Da análise de expressão diferencial resulta que, numa fase inicial e para o único contraste definido existem \(1488\) genes subexpressos e \(1815\) sobrexpressos. Isto pode ser analisado graficamente com recurso ao MD plot e ao volcano plot. Após a análise TREAT (Testing relative to a threshold) verificou-se que restaram \(74\) genes subexpressos e \(208\) genes sobreexpressos, o que também pode ser analisado graficamente com os gráficos já referidos. 1
Por último, a análise sobre as ontologias genéticas permitiu inferir que se encontram maioriatariamente subexpressos genes associados ao processos biológicos de resposta imune e resposta a estímulos para o contraste referido. Isto é consistente com o conhecimento biológico sobre o comportamento de cancros metásticos, dados que ao longo da sua carcinogénese estes acumulam mutações que os levam a suprimir estas respostas de modo a proliferarem com mais facilidade pelo organismo.
#Carregar no EdgeR
y <- DGEList(counts = exp_matrix)
#Carregar anotação dos genes
y$genes <- ann
#Design for mutation types
Mutation_count <- meta_intersect$mut_counts
design = model.matrix(~0+Mutation_count, data = y$samples)
colnames(design) <- levels(Mutation_count)
design## Low Medium High
## ACH-000001 0 1 0
## ACH-000002 1 0 0
## ACH-000006 1 0 0
## ACH-000007 0 1 0
## ACH-000009 0 1 0
## ACH-000011 0 1 0
## ACH-000012 1 0 0
## ACH-000013 1 0 0
## ACH-000014 0 0 1
## ACH-000015 0 1 0
## ACH-000016 1 0 0
## ACH-000017 0 1 0
## ACH-000018 1 0 0
## ACH-000019 0 0 1
## ACH-000021 0 1 0
## ACH-000022 1 0 0
## ACH-000023 0 1 0
## ACH-000024 0 0 1
## ACH-000026 0 1 0
## ACH-000027 1 0 0
## ACH-000028 0 0 1
## ACH-000029 0 1 0
## ACH-000030 0 0 1
## ACH-000031 1 0 0
## ACH-000033 1 0 0
## ACH-000035 1 0 0
## ACH-000039 1 0 0
## ACH-000040 1 0 0
## ACH-000041 1 0 0
## ACH-000042 1 0 0
## ACH-000043 1 0 0
## ACH-000044 1 0 0
## ACH-000045 1 0 0
## ACH-000046 1 0 0
## ACH-000048 1 0 0
## ACH-000050 0 1 0
## ACH-000051 1 0 0
## ACH-000052 1 0 0
## ACH-000054 1 0 0
## ACH-000055 1 0 0
## ACH-000056 1 0 0
## ACH-000059 1 0 0
## ACH-000060 1 0 0
## ACH-000062 0 1 0
## ACH-000065 1 0 0
## ACH-000066 1 0 0
## ACH-000067 1 0 0
## ACH-000070 1 0 0
## ACH-000073 1 0 0
## ACH-000075 1 0 0
## ACH-000078 1 0 0
## ACH-000082 1 0 0
## ACH-000085 1 0 0
## ACH-000087 1 0 0
## ACH-000089 1 0 0
## ACH-000090 0 0 1
## ACH-000091 1 0 0
## ACH-000092 1 0 0
## ACH-000093 1 0 0
## ACH-000094 1 0 0
## ACH-000096 1 0 0
## ACH-000097 0 1 0
## ACH-000098 1 0 0
## ACH-000100 1 0 0
## ACH-000102 1 0 0
## ACH-000103 1 0 0
## ACH-000105 1 0 0
## ACH-000107 1 0 0
## ACH-000108 0 1 0
## ACH-000109 0 1 0
## ACH-000111 1 0 0
## ACH-000113 1 0 0
## ACH-000114 1 0 0
## ACH-000115 1 0 0
## ACH-000116 1 0 0
## ACH-000117 1 0 0
## ACH-000118 0 1 0
## ACH-000121 1 0 0
## ACH-000123 1 0 0
## ACH-000124 1 0 0
## ACH-000125 1 0 0
## ACH-000126 0 1 0
## ACH-000127 0 1 0
## ACH-000129 1 0 0
## ACH-000131 1 0 0
## ACH-000132 0 1 0
## ACH-000133 1 0 0
## ACH-000135 1 0 0
## ACH-000136 1 0 0
## ACH-000137 1 0 0
## ACH-000138 1 0 0
## ACH-000139 1 0 0
## ACH-000140 1 0 0
## ACH-000142 1 0 0
## ACH-000144 0 1 0
## ACH-000145 1 0 0
## ACH-000146 0 1 0
## ACH-000147 1 0 0
## ACH-000148 1 0 0
## ACH-000149 1 0 0
## ACH-000150 1 0 0
## ACH-000152 1 0 0
## ACH-000153 0 1 0
## ACH-000155 1 0 0
## ACH-000157 0 0 1
## ACH-000158 0 1 0
## ACH-000159 0 1 0
## ACH-000161 1 0 0
## ACH-000163 1 0 0
## ACH-000164 1 0 0
## ACH-000166 0 1 0
## ACH-000167 0 1 0
## ACH-000168 0 1 0
## ACH-000169 0 1 0
## ACH-000171 1 0 0
## ACH-000172 1 0 0
## ACH-000174 1 0 0
## ACH-000176 1 0 0
## ACH-000177 0 1 0
## ACH-000178 1 0 0
## ACH-000179 0 1 0
## ACH-000181 0 1 0
## ACH-000183 0 1 0
## ACH-000186 0 1 0
## ACH-000187 1 0 0
## ACH-000188 1 0 0
## ACH-000189 0 1 0
## ACH-000191 1 0 0
## ACH-000192 0 1 0
## ACH-000193 1 0 0
## ACH-000194 1 0 0
## ACH-000196 0 0 1
## ACH-000197 0 1 0
## ACH-000200 0 1 0
## ACH-000201 1 0 0
## ACH-000202 0 1 0
## ACH-000203 0 1 0
## ACH-000204 0 1 0
## ACH-000205 0 1 0
## ACH-000207 0 1 0
## ACH-000210 0 1 0
## ACH-000211 0 1 0
## ACH-000212 1 0 0
## ACH-000213 0 1 0
## ACH-000217 0 1 0
## ACH-000219 0 0 1
## ACH-000221 0 1 0
## ACH-000222 0 1 0
## ACH-000223 0 1 0
## ACH-000227 0 1 0
## ACH-000228 1 0 0
## ACH-000229 1 0 0
## ACH-000231 0 1 0
## ACH-000232 0 1 0
## ACH-000234 1 0 0
## ACH-000235 0 1 0
## ACH-000236 0 1 0
## ACH-000237 0 1 0
## ACH-000238 0 1 0
## ACH-000239 0 1 0
## ACH-000240 1 0 0
## ACH-000242 1 0 0
## ACH-000244 1 0 0
## ACH-000246 0 1 0
## ACH-000247 0 1 0
## ACH-000248 0 0 1
## ACH-000249 1 0 0
## ACH-000250 0 1 0
## ACH-000252 0 1 0
## ACH-000253 0 1 0
## ACH-000255 0 1 0
## ACH-000256 1 0 0
## ACH-000257 0 1 0
## ACH-000258 0 1 0
## ACH-000259 0 1 0
## ACH-000260 1 0 0
## ACH-000261 0 1 0
## ACH-000263 0 1 0
## ACH-000264 0 1 0
## ACH-000265 0 1 0
## ACH-000269 0 1 0
## ACH-000270 0 1 0
## ACH-000271 1 0 0
## ACH-000272 1 0 0
## ACH-000273 1 0 0
## ACH-000275 1 0 0
## ACH-000276 0 1 0
## ACH-000277 0 1 0
## ACH-000278 0 1 0
## ACH-000280 0 1 0
## ACH-000281 0 1 0
## ACH-000282 0 1 0
## ACH-000285 0 1 0
## ACH-000286 0 1 0
## ACH-000288 1 0 0
## ACH-000290 0 1 0
## ACH-000291 1 0 0
## ACH-000292 0 1 0
## ACH-000293 1 0 0
## ACH-000294 0 1 0
## ACH-000296 0 0 1
## ACH-000297 0 1 0
## ACH-000298 0 1 0
## ACH-000300 1 0 0
## ACH-000301 0 1 0
## ACH-000302 0 1 0
## ACH-000303 0 1 0
## ACH-000304 0 0 1
## ACH-000306 1 0 0
## ACH-000307 0 1 0
## ACH-000308 0 1 0
## ACH-000310 1 0 0
## ACH-000311 0 1 0
## ACH-000312 0 1 0
## ACH-000313 0 1 0
## ACH-000314 0 0 1
## ACH-000315 0 1 0
## ACH-000317 0 1 0
## ACH-000318 0 1 0
## ACH-000320 0 1 0
## ACH-000322 0 1 0
## ACH-000323 1 0 0
## ACH-000324 0 1 0
## ACH-000325 0 1 0
## ACH-000327 1 0 0
## ACH-000329 1 0 0
## ACH-000330 0 1 0
## ACH-000332 0 1 0
## ACH-000333 1 0 0
## ACH-000334 0 1 0
## ACH-000335 1 0 0
## ACH-000336 1 0 0
## ACH-000338 0 1 0
## ACH-000341 0 1 0
## ACH-000343 0 1 0
## ACH-000344 0 1 0
## ACH-000345 0 1 0
## ACH-000347 0 0 1
## ACH-000348 0 1 0
## ACH-000349 0 1 0
## ACH-000350 0 0 1
## ACH-000351 0 1 0
## ACH-000352 0 1 0
## ACH-000353 0 0 1
## ACH-000354 0 1 0
## ACH-000355 0 1 0
## ACH-000356 0 1 0
## ACH-000358 0 1 0
## ACH-000359 1 0 0
## ACH-000360 0 1 0
## ACH-000361 1 0 0
## ACH-000362 0 1 0
## ACH-000363 0 1 0
## ACH-000364 0 1 0
## ACH-000365 0 1 0
## ACH-000366 0 1 0
## ACH-000367 1 0 0
## ACH-000368 0 1 0
## ACH-000373 0 1 0
## ACH-000374 1 0 0
## ACH-000375 0 1 0
## ACH-000376 0 1 0
## ACH-000378 0 1 0
## ACH-000379 0 1 0
## ACH-000380 0 1 0
## ACH-000381 0 0 1
## ACH-000382 0 1 0
## ACH-000383 0 1 0
## ACH-000384 0 1 0
## ACH-000386 0 1 0
## ACH-000388 0 1 0
## ACH-000389 0 1 0
## ACH-000390 0 1 0
## ACH-000391 0 1 0
## ACH-000392 0 1 0
## ACH-000393 0 1 0
## ACH-000394 0 0 1
## ACH-000395 0 0 1
## ACH-000396 0 1 0
## ACH-000397 0 1 0
## ACH-000399 0 1 0
## ACH-000400 0 1 0
## ACH-000401 0 1 0
## ACH-000403 1 0 0
## ACH-000404 0 1 0
## ACH-000406 0 1 0
## ACH-000407 0 1 0
## ACH-000409 0 1 0
## ACH-000410 0 1 0
## ACH-000411 1 0 0
## ACH-000412 0 1 0
## ACH-000414 0 0 1
## ACH-000415 1 0 0
## ACH-000416 0 0 1
## ACH-000417 0 1 0
## ACH-000418 1 0 0
## ACH-000419 0 0 1
## ACH-000420 0 1 0
## ACH-000421 0 1 0
## ACH-000422 0 1 0
## ACH-000423 0 1 0
## ACH-000424 0 1 0
## ACH-000427 0 1 0
## ACH-000429 0 0 1
## ACH-000430 0 1 0
## ACH-000431 0 0 1
## ACH-000433 1 0 0
## ACH-000434 0 0 1
## ACH-000435 1 0 0
## ACH-000437 0 1 0
## ACH-000438 0 1 0
## ACH-000441 0 1 0
## ACH-000442 0 1 0
## ACH-000443 0 1 0
## ACH-000444 0 0 1
## ACH-000445 0 1 0
## ACH-000446 0 1 0
## ACH-000447 0 1 0
## ACH-000448 0 0 1
## ACH-000449 0 1 0
## ACH-000450 0 1 0
## ACH-000451 0 1 0
## ACH-000453 0 1 0
## ACH-000454 0 1 0
## ACH-000456 0 1 0
## ACH-000457 0 1 0
## ACH-000458 0 1 0
## ACH-000459 0 1 0
## ACH-000460 0 1 0
## ACH-000463 0 0 1
## ACH-000464 0 1 0
## ACH-000465 0 1 0
## ACH-000466 0 1 0
## ACH-000468 0 1 0
## ACH-000469 0 1 0
## ACH-000470 0 0 1
## ACH-000472 0 0 1
## ACH-000473 0 0 1
## ACH-000475 0 0 1
## ACH-000476 0 1 0
## ACH-000477 0 1 0
## ACH-000478 0 1 0
## ACH-000479 0 1 0
## ACH-000480 0 1 0
## ACH-000481 0 0 1
## ACH-000482 0 1 0
## ACH-000483 0 1 0
## ACH-000484 1 0 0
## ACH-000485 0 1 0
## ACH-000487 0 1 0
## ACH-000488 0 0 1
## ACH-000489 0 1 0
## ACH-000490 0 1 0
## ACH-000491 0 0 1
## ACH-000493 0 1 0
## ACH-000495 0 1 0
## ACH-000496 0 1 0
## ACH-000501 0 0 1
## ACH-000502 1 0 0
## ACH-000503 0 1 0
## ACH-000504 0 1 0
## ACH-000505 0 1 0
## ACH-000506 0 1 0
## ACH-000507 0 0 1
## ACH-000508 0 0 1
## ACH-000510 0 0 1
## ACH-000511 0 0 1
## ACH-000514 0 0 1
## ACH-000515 0 0 1
## ACH-000517 0 1 0
## ACH-000518 0 1 0
## ACH-000520 0 1 0
## ACH-000521 0 0 1
## ACH-000522 0 1 0
## ACH-000523 0 0 1
## ACH-000524 0 1 0
## ACH-000525 0 1 0
## ACH-000526 1 0 0
## ACH-000527 0 0 1
## ACH-000528 0 0 1
## ACH-000530 0 1 0
## ACH-000532 0 1 0
## ACH-000534 0 1 0
## ACH-000535 1 0 0
## ACH-000536 0 0 1
## ACH-000538 0 1 0
## ACH-000539 1 0 0
## ACH-000541 0 0 1
## ACH-000542 0 1 0
## ACH-000544 0 1 0
## ACH-000545 0 0 1
## ACH-000546 0 0 1
## ACH-000547 0 1 0
## ACH-000548 0 0 1
## ACH-000550 0 0 1
## ACH-000551 0 0 1
## ACH-000552 0 0 1
## ACH-000553 0 0 1
## ACH-000554 0 0 1
## ACH-000555 1 0 0
## ACH-000557 1 0 0
## ACH-000558 0 1 0
## ACH-000559 0 0 1
## ACH-000561 0 0 1
## ACH-000562 0 1 0
## ACH-000563 0 0 1
## ACH-000564 0 0 1
## ACH-000565 0 0 1
## ACH-000566 0 1 0
## ACH-000568 0 1 0
## ACH-000569 1 0 0
## ACH-000570 0 0 1
## ACH-000571 0 1 0
## ACH-000572 0 1 0
## ACH-000573 0 1 0
## ACH-000574 0 0 1
## ACH-000576 0 0 1
## ACH-000577 0 1 0
## ACH-000578 0 1 0
## ACH-000579 0 0 1
## ACH-000580 0 1 0
## ACH-000581 0 1 0
## ACH-000582 0 0 1
## ACH-000584 0 0 1
## ACH-000585 0 0 1
## ACH-000586 0 0 1
## ACH-000587 0 1 0
## ACH-000588 0 0 1
## ACH-000589 0 0 1
## ACH-000590 0 0 1
## ACH-000593 0 1 0
## ACH-000594 0 0 1
## ACH-000595 0 0 1
## ACH-000596 0 0 1
## ACH-000598 0 0 1
## ACH-000599 0 1 0
## ACH-000600 1 0 0
## ACH-000601 0 1 0
## ACH-000603 0 0 1
## ACH-000606 1 0 0
## ACH-000607 0 0 1
## ACH-000608 0 1 0
## ACH-000609 0 1 0
## ACH-000610 0 0 1
## ACH-000611 0 0 1
## ACH-000613 1 0 0
## ACH-000614 0 0 1
## ACH-000616 0 0 1
## ACH-000617 0 1 0
## ACH-000619 0 1 0
## ACH-000620 0 0 1
## ACH-000621 0 0 1
## ACH-000622 0 0 1
## ACH-000623 0 1 0
## ACH-000624 0 1 0
## ACH-000625 0 1 0
## ACH-000627 0 0 1
## ACH-000628 0 0 1
## ACH-000631 0 0 1
## ACH-000632 0 0 1
## ACH-000633 0 0 1
## ACH-000635 0 0 1
## ACH-000637 0 0 1
## ACH-000638 0 0 1
## ACH-000639 0 0 1
## ACH-000640 0 0 1
## ACH-000643 0 0 1
## ACH-000644 0 1 0
## ACH-000645 1 0 0
## ACH-000646 0 0 1
## ACH-000647 0 0 1
## ACH-000648 0 1 0
## ACH-000649 0 0 1
## ACH-000650 0 0 1
## ACH-000651 0 0 1
## ACH-000652 0 0 1
## ACH-000653 0 1 0
## ACH-000655 0 1 0
## ACH-000656 0 0 1
## ACH-000657 0 0 1
## ACH-000658 0 0 1
## ACH-000659 0 0 1
## ACH-000660 0 1 0
## ACH-000662 0 0 1
## ACH-000663 0 0 1
## ACH-000665 0 0 1
## ACH-000666 0 0 1
## ACH-000667 0 0 1
## ACH-000668 0 1 0
## ACH-000669 0 0 1
## ACH-000670 0 0 1
## ACH-000672 0 0 1
## ACH-000674 0 0 1
## ACH-000675 0 0 1
## ACH-000677 0 1 0
## ACH-000678 0 0 1
## ACH-000679 0 0 1
## ACH-000680 0 0 1
## ACH-000681 0 0 1
## ACH-000683 0 0 1
## ACH-000684 0 1 0
## ACH-000685 0 1 0
## ACH-000686 0 1 0
## ACH-000688 1 0 0
## ACH-000691 0 0 1
## ACH-000692 0 1 0
## ACH-000693 0 0 1
## ACH-000694 0 0 1
## ACH-000695 0 0 1
## ACH-000696 0 0 1
## ACH-000697 0 0 1
## ACH-000698 0 0 1
## ACH-000699 0 0 1
## ACH-000701 0 1 0
## ACH-000703 0 0 1
## ACH-000704 0 1 0
## ACH-000705 0 0 1
## ACH-000706 0 0 1
## ACH-000708 0 1 0
## ACH-000709 0 1 0
## ACH-000710 1 0 0
## ACH-000711 1 0 0
## ACH-000712 0 1 0
## ACH-000713 0 1 0
## ACH-000714 0 0 1
## ACH-000718 0 0 1
## ACH-000719 0 1 0
## ACH-000720 0 1 0
## ACH-000721 0 0 1
## ACH-000722 0 0 1
## ACH-000724 0 1 0
## ACH-000725 0 0 1
## ACH-000729 0 0 1
## ACH-000730 0 0 1
## ACH-000731 1 0 0
## ACH-000732 1 0 0
## ACH-000733 0 0 1
## ACH-000734 0 0 1
## ACH-000735 0 1 0
## ACH-000736 0 0 1
## ACH-000737 0 1 0
## ACH-000738 0 0 1
## ACH-000739 0 1 0
## ACH-000740 0 0 1
## ACH-000741 0 1 0
## ACH-000743 0 0 1
## ACH-000744 0 0 1
## ACH-000745 0 0 1
## ACH-000746 0 0 1
## ACH-000747 0 0 1
## ACH-000748 0 1 0
## ACH-000749 0 0 1
## ACH-000750 0 0 1
## ACH-000752 0 0 1
## ACH-000753 0 0 1
## ACH-000755 0 1 0
## ACH-000756 0 0 1
## ACH-000758 0 0 1
## ACH-000759 0 0 1
## ACH-000761 0 1 0
## ACH-000763 0 0 1
## ACH-000764 0 0 1
## ACH-000765 0 1 0
## ACH-000766 0 0 1
## ACH-000767 0 0 1
## ACH-000768 0 0 1
## ACH-000769 0 0 1
## ACH-000771 0 1 0
## ACH-000774 0 0 1
## ACH-000775 0 0 1
## ACH-000776 0 0 1
## ACH-000777 0 0 1
## ACH-000778 0 0 1
## ACH-000780 0 0 1
## ACH-000781 0 0 1
## ACH-000782 0 0 1
## ACH-000783 0 0 1
## ACH-000784 0 0 1
## ACH-000785 0 0 1
## ACH-000787 0 0 1
## ACH-000788 0 0 1
## ACH-000789 0 0 1
## ACH-000790 0 0 1
## ACH-000791 0 0 1
## ACH-000792 0 1 0
## ACH-000793 0 0 1
## ACH-000794 0 1 0
## ACH-000796 0 0 1
## ACH-000797 0 1 0
## ACH-000798 0 1 0
## ACH-000799 0 0 1
## ACH-000800 0 0 1
## ACH-000802 0 0 1
## ACH-000803 0 0 1
## ACH-000804 0 0 1
## ACH-000805 0 0 1
## ACH-000808 0 0 1
## ACH-000809 0 0 1
## ACH-000810 0 0 1
## ACH-000811 0 0 1
## ACH-000812 0 0 1
## ACH-000813 0 0 1
## ACH-000815 0 0 1
## ACH-000816 0 0 1
## ACH-000817 0 0 1
## ACH-000818 0 0 1
## ACH-000819 0 0 1
## ACH-000820 0 0 1
## ACH-000821 0 0 1
## ACH-000822 0 0 1
## ACH-000823 0 0 1
## ACH-000824 0 0 1
## ACH-000825 0 0 1
## ACH-000826 0 0 1
## ACH-000828 0 0 1
## ACH-000830 0 0 1
## ACH-000831 0 0 1
## ACH-000832 0 0 1
## ACH-000833 0 0 1
## ACH-000834 0 1 0
## ACH-000835 0 0 1
## ACH-000837 0 0 1
## ACH-000838 0 0 1
## ACH-000839 0 0 1
## ACH-000840 0 0 1
## ACH-000841 0 0 1
## ACH-000842 0 0 1
## ACH-000843 0 0 1
## ACH-000844 0 0 1
## ACH-000845 0 0 1
## ACH-000846 0 0 1
## ACH-000847 0 0 1
## ACH-000848 0 0 1
## ACH-000849 0 0 1
## ACH-000850 1 0 0
## ACH-000851 0 0 1
## ACH-000852 0 0 1
## ACH-000853 0 0 1
## ACH-000855 0 0 1
## ACH-000856 0 0 1
## ACH-000857 0 1 0
## ACH-000858 0 0 1
## ACH-000859 0 0 1
## ACH-000860 0 0 1
## ACH-000861 0 0 1
## ACH-000862 0 0 1
## ACH-000863 0 0 1
## ACH-000864 0 0 1
## ACH-000865 0 0 1
## ACH-000866 0 0 1
## ACH-000867 0 0 1
## ACH-000868 0 0 1
## ACH-000869 0 0 1
## ACH-000870 0 0 1
## ACH-000871 0 0 1
## ACH-000873 0 0 1
## ACH-000874 0 0 1
## ACH-000875 0 0 1
## ACH-000876 0 0 1
## ACH-000877 0 0 1
## ACH-000878 0 0 1
## ACH-000879 0 0 1
## ACH-000880 0 0 1
## ACH-000881 0 0 1
## ACH-000882 0 0 1
## ACH-000883 0 0 1
## ACH-000884 0 0 1
## ACH-000885 0 0 1
## ACH-000886 0 0 1
## ACH-000888 0 0 1
## ACH-000889 0 0 1
## ACH-000890 0 0 1
## ACH-000891 0 0 1
## ACH-000892 0 0 1
## ACH-000893 0 0 1
## ACH-000894 0 0 1
## ACH-000895 0 0 1
## ACH-000896 0 0 1
## ACH-000897 0 0 1
## ACH-000898 0 0 1
## ACH-000899 0 0 1
## ACH-000900 0 0 1
## ACH-000901 0 0 1
## ACH-000902 0 0 1
## ACH-000903 0 0 1
## ACH-000904 0 0 1
## ACH-000906 0 0 1
## ACH-000907 0 0 1
## ACH-000908 0 0 1
## ACH-000909 0 0 1
## ACH-000910 0 0 1
## ACH-000911 0 0 1
## ACH-000912 0 0 1
## ACH-000913 0 0 1
## ACH-000915 0 0 1
## ACH-000916 0 0 1
## ACH-000919 0 0 1
## ACH-000921 0 0 1
## ACH-000924 0 0 1
## ACH-000925 0 0 1
## ACH-000926 0 0 1
## ACH-000927 0 0 1
## ACH-000928 0 0 1
## ACH-000929 0 0 1
## ACH-000930 0 0 1
## ACH-000931 0 0 1
## ACH-000932 0 0 1
## ACH-000934 0 0 1
## ACH-000936 0 0 1
## ACH-000938 0 0 1
## ACH-000939 0 0 1
## ACH-000940 0 0 1
## ACH-000941 0 0 1
## ACH-000942 0 0 1
## ACH-000943 0 0 1
## ACH-000945 0 0 1
## ACH-000946 0 0 1
## ACH-000947 0 0 1
## ACH-000948 0 0 1
## ACH-000949 0 0 1
## ACH-000950 0 0 1
## ACH-000951 0 0 1
## ACH-000952 0 0 1
## ACH-000953 0 0 1
## ACH-000954 0 0 1
## ACH-000955 0 0 1
## ACH-000956 0 0 1
## ACH-000957 0 0 1
## ACH-000958 0 0 1
## ACH-000960 0 0 1
## ACH-000961 0 0 1
## ACH-000962 0 0 1
## ACH-000963 0 0 1
## ACH-000965 0 0 1
## ACH-000966 0 0 1
## ACH-000967 0 0 1
## ACH-000968 0 0 1
## ACH-000969 0 0 1
## ACH-000971 0 0 1
## ACH-000972 0 0 1
## ACH-000973 0 0 1
## ACH-000974 0 0 1
## ACH-000976 0 0 1
## ACH-000977 0 0 1
## ACH-000978 0 0 1
## ACH-000980 0 0 1
## ACH-000981 0 0 1
## ACH-000982 0 0 1
## ACH-000984 0 0 1
## ACH-000985 0 0 1
## ACH-000987 0 0 1
## ACH-000989 0 0 1
## ACH-000990 0 0 1
## ACH-000993 0 0 1
## ACH-000994 0 0 1
## ACH-000995 0 0 1
## ACH-000996 0 0 1
## ACH-000997 0 0 1
## ACH-000998 0 0 1
## ACH-001001 0 1 0
## ACH-001041 1 0 0
## ACH-001048 1 0 0
## ACH-001061 0 0 1
## ACH-001075 0 1 0
## ACH-001078 0 1 0
## ACH-001106 0 1 0
## ACH-001113 0 0 1
## ACH-001129 1 0 0
## ACH-001145 0 0 1
## ACH-001151 1 0 0
## ACH-001163 1 0 0
## ACH-001184 0 0 1
## ACH-001190 0 0 1
## ACH-001192 1 0 0
## ACH-001194 1 0 0
## ACH-001200 0 1 0
## ACH-001210 1 0 0
## ACH-001229 1 0 0
## ACH-001239 0 0 1
## ACH-001277 0 1 0
## ACH-001278 1 0 0
## ACH-001283 1 0 0
## ACH-001306 0 1 0
## ACH-001307 0 1 0
## ACH-001318 0 0 1
## ACH-001321 0 1 0
## ACH-001328 0 0 1
## ACH-001329 0 1 0
## ACH-001332 1 0 0
## ACH-001333 0 0 1
## ACH-001334 0 1 0
## ACH-001335 0 1 0
## ACH-001336 0 0 1
## ACH-001339 0 1 0
## ACH-001340 1 0 0
## ACH-001341 0 1 0
## ACH-001344 0 0 1
## ACH-001345 0 0 1
## ACH-001346 1 0 0
## ACH-001347 1 0 0
## ACH-001353 1 0 0
## ACH-001354 1 0 0
## ACH-001356 1 0 0
## ACH-001360 1 0 0
## ACH-001366 0 0 1
## ACH-001367 0 0 1
## ACH-001368 1 0 0
## ACH-001369 0 0 1
## ACH-001370 1 0 0
## ACH-001373 1 0 0
## ACH-001374 0 1 0
## ACH-001375 1 0 0
## ACH-001376 1 0 0
## ACH-001377 0 0 1
## ACH-001378 1 0 0
## ACH-001379 1 0 0
## ACH-001380 1 0 0
## ACH-001382 1 0 0
## ACH-001384 1 0 0
## ACH-001385 1 0 0
## ACH-001386 0 0 1
## ACH-001388 1 0 0
## ACH-001389 0 1 0
## ACH-001390 0 0 1
## ACH-001391 1 0 0
## ACH-001392 1 0 0
## ACH-001394 1 0 0
## ACH-001395 0 1 0
## ACH-001396 1 0 0
## ACH-001398 0 0 1
## ACH-001399 0 1 0
## ACH-001400 0 1 0
## ACH-001401 0 0 1
## ACH-001402 0 0 1
## ACH-001403 1 0 0
## ACH-001407 0 0 1
## ACH-001408 0 1 0
## ACH-001409 0 1 0
## ACH-001410 1 0 0
## ACH-001411 0 1 0
## ACH-001412 0 0 1
## ACH-001413 0 0 1
## ACH-001414 0 0 1
## ACH-001415 0 0 1
## ACH-001416 0 0 1
## ACH-001418 1 0 0
## ACH-001419 1 0 0
## ACH-001421 1 0 0
## ACH-001422 1 0 0
## ACH-001433 1 0 0
## ACH-001441 1 0 0
## ACH-001442 0 1 0
## ACH-001443 0 0 1
## ACH-001450 1 0 0
## ACH-001451 1 0 0
## ACH-001453 1 0 0
## ACH-001454 1 0 0
## ACH-001456 1 0 0
## ACH-001458 0 1 0
## ACH-001459 1 0 0
## ACH-001460 1 0 0
## ACH-001461 1 0 0
## ACH-001484 0 0 1
## ACH-001485 0 0 1
## ACH-001494 0 1 0
## ACH-001495 1 0 0
## ACH-001496 0 1 0
## ACH-001497 0 1 0
## ACH-001498 0 0 1
## ACH-001500 0 1 0
## ACH-001509 1 0 0
## ACH-001510 0 1 0
## ACH-001511 1 0 0
## ACH-001513 0 0 1
## ACH-001515 0 0 1
## ACH-001516 0 0 1
## ACH-001517 0 0 1
## ACH-001518 0 0 1
## ACH-001519 0 1 0
## ACH-001520 1 0 0
## ACH-001521 0 0 1
## ACH-001522 0 1 0
## ACH-001523 0 0 1
## ACH-001524 0 0 1
## ACH-001525 0 0 1
## ACH-001526 0 1 0
## ACH-001528 0 0 1
## ACH-001529 0 0 1
## ACH-001530 0 0 1
## ACH-001532 1 0 0
## ACH-001536 0 0 1
## ACH-001538 0 1 0
## ACH-001539 0 0 1
## ACH-001540 0 1 0
## ACH-001541 0 1 0
## ACH-001542 0 0 1
## ACH-001543 0 1 0
## ACH-001548 1 0 0
## ACH-001549 0 0 1
## ACH-001550 0 0 1
## ACH-001551 0 0 1
## ACH-001552 0 0 1
## ACH-001554 1 0 0
## ACH-001555 1 0 0
## ACH-001556 1 0 0
## ACH-001557 1 0 0
## ACH-001558 1 0 0
## ACH-001559 1 0 0
## ACH-001560 1 0 0
## ACH-001561 1 0 0
## ACH-001562 1 0 0
## ACH-001563 0 0 1
## ACH-001566 0 0 1
## ACH-001567 0 0 1
## ACH-001568 0 0 1
## ACH-001569 0 0 1
## ACH-001570 0 0 1
## ACH-001573 1 0 0
## ACH-001574 1 0 0
## ACH-001577 1 0 0
## ACH-001578 0 1 0
## ACH-001603 0 1 0
## ACH-001605 0 1 0
## ACH-001607 0 1 0
## ACH-001608 0 0 1
## ACH-001609 0 1 0
## ACH-001610 0 0 1
## ACH-001611 0 1 0
## ACH-001613 1 0 0
## ACH-001616 1 0 0
## ACH-001617 1 0 0
## ACH-001618 1 0 0
## ACH-001619 0 1 0
## ACH-001622 0 1 0
## ACH-001623 0 0 1
## ACH-001624 0 1 0
## ACH-001625 0 0 1
## ACH-001626 0 1 0
## ACH-001627 1 0 0
## ACH-001628 1 0 0
## ACH-001630 0 1 0
## ACH-001632 1 0 0
## ACH-001634 1 0 0
## ACH-001636 1 0 0
## ACH-001638 0 0 1
## ACH-001642 0 1 0
## ACH-001645 0 0 1
## ACH-001647 0 1 0
## ACH-001648 1 0 0
## ACH-001649 1 0 0
## ACH-001650 0 0 1
## ACH-001651 1 0 0
## ACH-001652 0 1 0
## ACH-001653 0 0 1
## ACH-001654 1 0 0
## ACH-001655 0 1 0
## ACH-001656 0 1 0
## ACH-001664 0 0 1
## ACH-001668 1 0 0
## ACH-001670 0 1 0
## ACH-001673 0 1 0
## ACH-001674 0 0 1
## ACH-001677 1 0 0
## ACH-001685 0 1 0
## ACH-001687 0 1 0
## ACH-001688 0 1 0
## ACH-001690 1 0 0
## ACH-001692 1 0 0
## ACH-001694 0 0 1
## ACH-001698 1 0 0
## ACH-001699 0 1 0
## ACH-001702 1 0 0
## ACH-001703 1 0 0
## ACH-001709 0 0 1
## ACH-001711 1 0 0
## ACH-001719 0 0 1
## ACH-001740 0 1 0
## ACH-001765 1 0 0
## ACH-001786 0 0 1
## ACH-001794 1 0 0
## ACH-001807 1 0 0
## ACH-001814 1 0 0
## ACH-001818 1 0 0
## ACH-001819 0 1 0
## ACH-001820 0 1 0
## ACH-001850 0 1 0
## ACH-001861 0 1 0
## ACH-001961 1 0 0
## ACH-001991 0 0 1
## ACH-002011 1 0 0
## ACH-002015 1 0 0
## ACH-002016 1 0 0
## ACH-002017 0 1 0
## ACH-002018 1 0 0
## ACH-002019 0 1 0
## ACH-002022 0 0 1
## ACH-002023 0 1 0
## ACH-002024 0 0 1
## ACH-002025 0 1 0
## ACH-002026 0 0 1
## ACH-002027 0 0 1
## ACH-002029 0 0 1
## ACH-002038 0 1 0
## ACH-002039 0 1 0
## ACH-002041 0 0 1
## ACH-002042 0 1 0
## ACH-002044 0 1 0
## ACH-002045 0 0 1
## ACH-002046 0 1 0
## ACH-002059 0 0 1
## ACH-002062 0 0 1
## ACH-002065 0 1 0
## ACH-002066 0 1 0
## ACH-002067 0 1 0
## ACH-002069 0 1 0
## ACH-002446 0 1 0
## ACH-002508 0 0 1
## ACH-002509 0 0 1
## ACH-002510 0 0 1
## ACH-002511 1 0 0
## attr(,"assign")
## [1] 1 1 1
## attr(,"contrasts")
## attr(,"contrasts")$Mutation_count
## [1] "contr.treatment"
#Make contrasts
contrast <- makeContrasts(MvsL=Medium-Low,
HvsM=High-Medium,
HvsL=High-Low
,levels=design)
keep <- filterByExpr(y, design)
y <- y[keep, , keep.lib.sizes=FALSE]
barplot(y$samples$lib.size,names=colnames(y),las=2)
# Add a title to the plot
title("Barplot of library sizes")#Normalization for composition bias
y <- calcNormFactors(y)
#Start limma voom pipeline
par(mfrow=c(1,1))
v <- voom(y,design,plot = TRUE)#Limma - Trend
fit <- lmFit(v, design)
fit.cont <- contrasts.fit(fit, contrast)
fit.cont <- eBayes(fit.cont, trend = F, robust = F)
summa.fit <- decideTests(fit.cont)
summary(summa.fit)## MvsL HvsM HvsL
## Down 3 3 7
## NotSig 37 35 25
## Up 3 5 11
## ENSEMBL ENTREZID SYMBOL
## ENSG00000267281 ENSG00000267281 114108587 ATF7-NPFF
## ENSG00000245857 ENSG00000245857 100652791 GS1-24F4.2
## ENSG00000281392 ENSG00000281392 100846978 LINC00506
## ENSG00000279636 ENSG00000279636 55451 LINC00216
## ENSG00000267313 ENSG00000267313 641516 KC6
## ENSG00000229951 ENSG00000229951 403150 FOSL2-AS1
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000268592 ENSG00000268592 100652739 RAET1E-AS1
## ENSG00000269226 ENSG00000269226 286527 TMSB15B
## ENSG00000177340 ENSG00000177340 79857 FLJ13224
## GENENAME logFC AveExpr
## ENSG00000267281 ATF7-NPFF readthrough -0.3728257 13.546340
## ENSG00000245857 uncharacterized LOC100652791 -0.8571821 8.439845
## ENSG00000281392 long intergenic non-protein coding RNA 506 -0.9619325 8.675656
## ENSG00000279636 long intergenic non-protein coding RNA 216 0.4274948 10.664781
## ENSG00000267313 keratoconus gene 6 1.2597057 8.996338
## ENSG00000229951 FOSL2 antisense RNA 1 -0.8140753 10.392558
## ENSG00000273032 DiGeorge syndrome critical region gene 5 0.7474871 12.061091
## ENSG00000268592 RAET1E antisense RNA 1 0.6478454 11.303730
## ENSG00000269226 thymosin beta 15B -0.7888945 12.168799
## ENSG00000177340 uncharacterized LOC79857 0.3472232 9.774559
## t P.Value adj.P.Val B
## ENSG00000267281 -4.616868 4.389843e-06 0.0001080028 3.8128843
## ENSG00000245857 -4.588218 5.023384e-06 0.0001080028 3.7693325
## ENSG00000281392 -4.493964 7.786416e-06 0.0001116053 3.3853434
## ENSG00000279636 4.378282 1.318830e-05 0.0001417742 2.9289895
## ENSG00000267313 4.303915 1.838802e-05 0.0001581370 2.6170910
## ENSG00000229951 -4.069658 5.070039e-05 0.0003633528 1.7061461
## ENSG00000273032 3.793131 1.574589e-04 0.0009672474 0.6565793
## ENSG00000268592 3.473134 5.359039e-04 0.0028804834 -0.4193689
## ENSG00000269226 -3.324993 9.155385e-04 0.0043742397 -0.9588315
## ENSG00000177340 3.209450 1.371176e-03 0.0058960563 -1.2056725
#Genome - Wide plots
plotMD(fit.cont,coef="HvsL",status=summa.fit[,"HvsL"], values = c(-1, 1), hl.col=c("blue","red"), main = "HvsL")glXYPlot(x=fit.cont$coefficients[,1], y=fit.cont$lods[,1],
xlab="logFC", ylab="B", main="HvsL",
counts=v$E, groups=Mutation_count, status=summa.fit[,1],
anno=fit.cont$genes, side.main="ENSEMBL", folder="mut_counts_volcano", html = 'mut_counts_volcano')
#Testing relative to a threshold - TREAT
fit.treat <- treat(fit.cont,lfc=log2(1.2))
res.treat <- decideTests(fit.treat)
summary(res.treat)## MvsL HvsM HvsL
## Down 0 0 3
## NotSig 43 43 39
## Up 0 0 1
## ENSEMBL ENTREZID SYMBOL
## ENSG00000267313 ENSG00000267313 641516 KC6
## ENSG00000281392 ENSG00000281392 100846978 LINC00506
## ENSG00000245857 ENSG00000245857 100652791 GS1-24F4.2
## ENSG00000229951 ENSG00000229951 403150 FOSL2-AS1
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000269226 ENSG00000269226 286527 TMSB15B
## ENSG00000276476 ENSG00000276476 100506622 LINC00540
## ENSG00000268592 ENSG00000268592 100652739 RAET1E-AS1
## ENSG00000279636 ENSG00000279636 55451 LINC00216
## ENSG00000281706 ENSG00000281706 100507173 LINC01012
## GENENAME logFC
## ENSG00000267313 keratoconus gene 6 1.2597057
## ENSG00000281392 long intergenic non-protein coding RNA 506 -0.9619325
## ENSG00000245857 uncharacterized LOC100652791 -0.8571821
## ENSG00000229951 FOSL2 antisense RNA 1 -0.8140753
## ENSG00000273032 DiGeorge syndrome critical region gene 5 0.7474871
## ENSG00000269226 thymosin beta 15B -0.7888945
## ENSG00000276476 long intergenic non-protein coding RNA 540 0.8753761
## ENSG00000268592 RAET1E antisense RNA 1 0.6478454
## ENSG00000279636 long intergenic non-protein coding RNA 216 0.4274948
## ENSG00000281706 long intergenic non-protein coding RNA 1012 0.5684131
## AveExpr t P.Value adj.P.Val
## ENSG00000267313 8.996338 3.405230 0.0003434726 0.01086091
## ENSG00000281392 8.675656 -3.265118 0.0005652096 0.01086091
## ENSG00000245857 8.439845 -3.180280 0.0007577379 0.01086091
## ENSG00000229951 10.392558 -2.754718 0.0029891880 0.03213377
## ENSG00000273032 12.061091 2.458360 0.0070610758 0.06072525
## ENSG00000269226 12.168799 -2.216369 0.0134477186 0.09637532
## ENSG00000276476 8.533131 2.122894 0.0170432594 0.10469431
## ENSG00000268592 11.303730 2.062992 0.0196829879 0.10579606
## ENSG00000279636 10.664781 1.684357 0.0462085121 0.22077400
## ENSG00000281706 11.434888 1.433545 0.0760541557 0.32703287
#Treat plots
plotMD(fit.treat,coef="HvsL",status=res.treat[,"HvsL"], values = c(-1, 1), hl.col=c("blue","red"), main = "HvsL (TREAT)")glMDPlot(fit.treat, coef="HvsL", counts=v$E, groups=Mutation_count,
status=res.treat, side.main="ENSEMBL", main="HvsL",
folder="mut_counts_md", html = 'mut_counts_md')
#GO enrichment using goana on Treat results
go <- goana(fit.treat, coef="HvsL", geneid = fit.treat$genes$ENTREZID, species = "Hs")
topGO(go, n=10)## Term Ont N Up
## GO:0003779 actin binding MF 1 0
## GO:0030036 actin cytoskeleton organization BP 1 0
## GO:0007015 actin filament organization BP 1 0
## GO:0030029 actin filament-based process BP 1 0
## GO:0003785 actin monomer binding MF 1 0
## GO:0002253 activation of immune response BP 1 0
## GO:0002218 activation of innate immune response BP 1 0
## GO:0048856 anatomical structure development BP 1 0
## GO:0048646 anatomical structure formation involved in morphogenesis BP 1 0
## GO:0009653 anatomical structure morphogenesis BP 1 0
## Down P.Up P.Down
## GO:0003779 0 1 1
## GO:0030036 0 1 1
## GO:0007015 0 1 1
## GO:0030029 0 1 1
## GO:0003785 0 1 1
## GO:0002253 0 1 1
## GO:0002218 0 1 1
## GO:0048856 0 1 1
## GO:0048646 0 1 1
## GO:0009653 0 1 1
Para esta análise foram definidos como contrastes MvsL(Medium-Low), HvsM(High-Medium) e HvsL(High-Low). Da filtragem efetuada, permaneceram na análise \(18306\) linhagens das \(30639\) iniciais. A análise do gráfico de barras permite inferir que existem linhagens celulares com library sizes bastante superiores a média. O output gráfico do limma voom demonstra que ocorre uma dispersão dos pontos principalmente para valores de \(log2 < 10\).
Da análise de expressão diferencial resulta que, numa fase inicial e para o contraste MvsL existem \(553\) genes subexpressos e \(690\) sobrexpressos, para o contraste HvsM existem \(841\) genes subexpressos e \(726\) sobrexpressos e para o contraste HvsL existem \(3269\) genes subexpressos e \(3466\) sobrexpressos. Isto pode ser analisado graficamente com recurso ao MD plot e ao volcano plot para o constraste HvsL . Após a análise TREAT (Testing relative to a threshold) verificou-se que restaram para o contraste MvsL \(0\) genes subexpressos e \(2\) sobrexpressos, para o contraste HvsM restaram \(18\) genes subexpressos e \(12\) sobrexpressos e para o contraste HvsL restaram \(698\) genes subexpressos e \(587\) sobrexpressos, o que também pode ser analisado graficamente com os gráficos já referidos para o contrate HvsL. 2
Por último, a análise sobre as ontologias genéticas para o contraste HvsL permitiu inferir que se encontram maioriatariamente subexpressos genes associados a processos biológicos relacionados com a matriz extracelular, formação de vasos sanguíneos e vasculatura e adesão celular para o contraste referido. Isto não era o expectável, já que com a acumulação de mutações espera-se que os tumores evoluam no sentido de proliferarem, sendo para tal necessário a ação de genes relacionados com a angiogénese o que não está de acordo com estes resultados.
#Carregar no EdgeR
y <- DGEList(counts = exp_matrix)
#Carregar anotação dos genes
y$genes <- ann
#Design for mutation types
Cancer_type <- meta_intersect$type
Mutation_count <- meta_intersect$mut_counts
Group <- factor(paste(Cancer_type,Mutation_count,sep="."))
design = model.matrix(~0+Group, data = y$samples)
colnames(design) <- levels(Group)
design## Metastasis.High Metastasis.Low Metastasis.Medium Primary.High
## ACH-000001 0 0 1 0
## ACH-000002 0 0 0 0
## ACH-000006 0 0 0 0
## ACH-000007 0 0 0 0
## ACH-000009 0 0 0 0
## ACH-000011 0 0 1 0
## ACH-000012 0 0 0 0
## ACH-000013 0 1 0 0
## ACH-000014 1 0 0 0
## ACH-000015 0 0 0 0
## ACH-000016 0 1 0 0
## ACH-000017 0 0 1 0
## ACH-000018 0 0 0 0
## ACH-000019 1 0 0 0
## ACH-000021 0 0 1 0
## ACH-000022 0 1 0 0
## ACH-000023 0 0 1 0
## ACH-000024 0 0 0 1
## ACH-000026 0 0 1 0
## ACH-000027 0 0 0 0
## ACH-000028 1 0 0 0
## ACH-000029 0 0 0 0
## ACH-000030 0 0 0 1
## ACH-000031 0 0 0 0
## ACH-000033 0 1 0 0
## ACH-000035 0 1 0 0
## ACH-000039 0 1 0 0
## ACH-000040 0 0 0 0
## ACH-000041 0 0 0 0
## ACH-000042 0 0 0 0
## ACH-000043 0 1 0 0
## ACH-000044 0 1 0 0
## ACH-000045 0 0 0 0
## ACH-000046 0 1 0 0
## ACH-000048 0 0 0 0
## ACH-000050 0 0 1 0
## ACH-000051 0 0 0 0
## ACH-000052 0 0 0 0
## ACH-000054 0 1 0 0
## ACH-000055 0 1 0 0
## ACH-000056 0 1 0 0
## ACH-000059 0 0 0 0
## ACH-000060 0 0 0 0
## ACH-000062 0 0 0 0
## ACH-000065 0 0 0 0
## ACH-000066 0 1 0 0
## ACH-000067 0 0 0 0
## ACH-000070 0 0 0 0
## ACH-000073 0 0 0 0
## ACH-000075 0 0 0 0
## ACH-000078 0 1 0 0
## ACH-000082 0 0 0 0
## ACH-000085 0 0 0 0
## ACH-000087 0 0 0 0
## ACH-000089 0 1 0 0
## ACH-000090 1 0 0 0
## ACH-000091 0 1 0 0
## ACH-000092 0 1 0 0
## ACH-000093 0 0 0 0
## ACH-000094 0 1 0 0
## ACH-000096 0 0 0 0
## ACH-000097 0 0 1 0
## ACH-000098 0 0 0 0
## ACH-000100 0 1 0 0
## ACH-000102 0 0 0 0
## ACH-000103 0 1 0 0
## ACH-000105 0 0 0 0
## ACH-000107 0 0 0 0
## ACH-000108 0 0 1 0
## ACH-000109 0 0 0 0
## ACH-000111 0 0 0 0
## ACH-000113 0 0 0 0
## ACH-000114 0 1 0 0
## ACH-000115 0 1 0 0
## ACH-000116 0 1 0 0
## ACH-000117 0 1 0 0
## ACH-000118 0 0 1 0
## ACH-000121 0 1 0 0
## ACH-000123 0 0 0 0
## ACH-000124 0 0 0 0
## ACH-000125 0 1 0 0
## ACH-000126 0 0 0 0
## ACH-000127 0 0 0 0
## ACH-000129 0 1 0 0
## ACH-000131 0 0 0 0
## ACH-000132 0 0 0 0
## ACH-000133 0 0 0 0
## ACH-000135 0 0 0 0
## ACH-000136 0 0 0 0
## ACH-000137 0 0 0 0
## ACH-000138 0 1 0 0
## ACH-000139 0 0 0 0
## ACH-000140 0 1 0 0
## ACH-000142 0 0 0 0
## ACH-000144 0 0 1 0
## ACH-000145 0 0 0 0
## ACH-000146 0 0 0 0
## ACH-000147 0 1 0 0
## ACH-000148 0 0 0 0
## ACH-000149 0 1 0 0
## ACH-000150 0 0 0 0
## ACH-000152 0 0 0 0
## ACH-000153 0 0 1 0
## ACH-000155 0 0 0 0
## ACH-000157 0 0 0 1
## ACH-000158 0 0 0 0
## ACH-000159 0 0 0 0
## ACH-000161 0 1 0 0
## ACH-000163 0 0 0 0
## ACH-000164 0 0 0 0
## ACH-000166 0 0 0 0
## ACH-000167 0 0 1 0
## ACH-000168 0 0 0 0
## ACH-000169 0 0 0 0
## ACH-000171 0 0 0 0
## ACH-000172 0 1 0 0
## ACH-000174 0 0 0 0
## ACH-000176 0 0 0 0
## ACH-000177 0 0 1 0
## ACH-000178 0 1 0 0
## ACH-000179 0 0 1 0
## ACH-000181 0 0 0 0
## ACH-000183 0 0 0 0
## ACH-000186 0 0 0 0
## ACH-000187 0 0 0 0
## ACH-000188 0 0 0 0
## ACH-000189 0 0 0 0
## ACH-000191 0 1 0 0
## ACH-000192 0 0 0 0
## ACH-000193 0 0 0 0
## ACH-000194 0 0 0 0
## ACH-000196 0 0 0 1
## ACH-000197 0 0 0 0
## ACH-000200 0 0 0 0
## ACH-000201 0 0 0 0
## ACH-000202 0 0 0 0
## ACH-000203 0 0 1 0
## ACH-000204 0 0 0 0
## ACH-000205 0 0 1 0
## ACH-000207 0 0 1 0
## ACH-000210 0 0 1 0
## ACH-000211 0 0 0 0
## ACH-000212 0 1 0 0
## ACH-000213 0 0 1 0
## ACH-000217 0 0 0 0
## ACH-000219 0 0 0 1
## ACH-000221 0 0 0 0
## ACH-000222 0 0 1 0
## ACH-000223 0 0 0 0
## ACH-000227 0 0 1 0
## ACH-000228 0 0 0 0
## ACH-000229 0 0 0 0
## ACH-000231 0 0 0 0
## ACH-000232 0 0 0 0
## ACH-000234 0 0 0 0
## ACH-000235 0 0 0 0
## ACH-000236 0 0 0 0
## ACH-000237 0 0 0 0
## ACH-000238 0 0 0 0
## ACH-000239 0 0 1 0
## ACH-000240 0 0 0 0
## ACH-000242 0 0 0 0
## ACH-000244 0 0 0 0
## ACH-000246 0 0 1 0
## ACH-000247 0 0 1 0
## ACH-000248 1 0 0 0
## ACH-000249 0 0 0 0
## ACH-000250 0 0 0 0
## ACH-000252 0 0 0 0
## ACH-000253 0 0 1 0
## ACH-000255 0 0 1 0
## ACH-000256 0 1 0 0
## ACH-000257 0 0 1 0
## ACH-000258 0 0 1 0
## ACH-000259 0 0 0 0
## ACH-000260 0 1 0 0
## ACH-000261 0 0 1 0
## ACH-000263 0 0 0 0
## ACH-000264 0 0 1 0
## ACH-000265 0 0 1 0
## ACH-000269 0 0 0 0
## ACH-000270 0 0 0 0
## ACH-000271 0 1 0 0
## ACH-000272 0 0 0 0
## ACH-000273 0 0 0 0
## ACH-000275 0 1 0 0
## ACH-000276 0 0 0 0
## ACH-000277 0 0 0 0
## ACH-000278 0 0 1 0
## ACH-000280 0 0 0 0
## ACH-000281 0 0 0 0
## ACH-000282 0 0 1 0
## ACH-000285 0 0 0 0
## ACH-000286 0 0 0 0
## ACH-000288 0 0 0 0
## ACH-000290 0 0 1 0
## ACH-000291 0 1 0 0
## ACH-000292 0 0 1 0
## ACH-000293 0 0 0 0
## ACH-000294 0 0 0 0
## ACH-000296 1 0 0 0
## ACH-000297 0 0 1 0
## ACH-000298 0 0 1 0
## ACH-000300 0 1 0 0
## ACH-000301 0 0 0 0
## ACH-000302 0 0 0 0
## ACH-000303 0 0 1 0
## ACH-000304 1 0 0 0
## ACH-000306 0 0 0 0
## ACH-000307 0 0 1 0
## ACH-000308 0 0 1 0
## ACH-000310 0 1 0 0
## ACH-000311 0 0 1 0
## ACH-000312 0 0 1 0
## ACH-000313 0 0 0 0
## ACH-000314 0 0 0 1
## ACH-000315 0 0 1 0
## ACH-000317 0 0 0 0
## ACH-000318 0 0 0 0
## ACH-000320 0 0 0 0
## ACH-000322 0 0 1 0
## ACH-000323 0 0 0 0
## ACH-000324 0 0 0 0
## ACH-000325 0 0 1 0
## ACH-000327 0 0 0 0
## ACH-000329 0 0 0 0
## ACH-000330 0 0 1 0
## ACH-000332 0 0 1 0
## ACH-000333 0 0 0 0
## ACH-000334 0 0 1 0
## ACH-000335 0 1 0 0
## ACH-000336 0 0 0 0
## ACH-000338 0 0 0 0
## ACH-000341 0 0 1 0
## ACH-000343 0 0 0 0
## ACH-000344 0 0 1 0
## ACH-000345 0 0 1 0
## ACH-000347 0 0 0 1
## ACH-000348 0 0 1 0
## ACH-000349 0 0 0 0
## ACH-000350 1 0 0 0
## ACH-000351 0 0 1 0
## ACH-000352 0 0 1 0
## ACH-000353 0 0 0 1
## ACH-000354 0 0 1 0
## ACH-000355 0 0 1 0
## ACH-000356 0 0 1 0
## ACH-000358 0 0 1 0
## ACH-000359 0 0 0 0
## ACH-000360 0 0 1 0
## ACH-000361 0 1 0 0
## ACH-000362 0 0 0 0
## ACH-000363 0 0 0 0
## ACH-000364 0 0 0 0
## ACH-000365 0 0 1 0
## ACH-000366 0 0 1 0
## ACH-000367 0 1 0 0
## ACH-000368 0 0 0 0
## ACH-000373 0 0 0 0
## ACH-000374 0 0 0 0
## ACH-000375 0 0 0 0
## ACH-000376 0 0 0 0
## ACH-000378 0 0 1 0
## ACH-000379 0 0 1 0
## ACH-000380 0 0 0 0
## ACH-000381 1 0 0 0
## ACH-000382 0 0 1 0
## ACH-000383 0 0 0 0
## ACH-000384 0 0 0 0
## ACH-000386 0 0 0 0
## ACH-000388 0 0 1 0
## ACH-000389 0 0 0 0
## ACH-000390 0 0 0 0
## ACH-000391 0 0 1 0
## ACH-000392 0 0 1 0
## ACH-000393 0 0 0 0
## ACH-000394 1 0 0 0
## ACH-000395 0 0 0 1
## ACH-000396 0 0 0 0
## ACH-000397 0 0 0 0
## ACH-000399 0 0 1 0
## ACH-000400 0 0 1 0
## ACH-000401 0 0 1 0
## ACH-000403 0 1 0 0
## ACH-000404 0 0 0 0
## ACH-000406 0 0 1 0
## ACH-000407 0 0 0 0
## ACH-000409 0 0 1 0
## ACH-000410 0 0 0 0
## ACH-000411 0 0 0 0
## ACH-000412 0 0 0 0
## ACH-000414 1 0 0 0
## ACH-000415 0 0 0 0
## ACH-000416 1 0 0 0
## ACH-000417 0 0 0 0
## ACH-000418 0 0 0 0
## ACH-000419 0 0 0 1
## ACH-000420 0 0 0 0
## ACH-000421 0 0 0 0
## ACH-000422 0 0 0 0
## ACH-000423 0 0 1 0
## ACH-000424 0 0 0 0
## ACH-000427 0 0 1 0
## ACH-000429 0 0 0 1
## ACH-000430 0 0 0 0
## ACH-000431 1 0 0 0
## ACH-000433 0 1 0 0
## ACH-000434 1 0 0 0
## ACH-000435 0 1 0 0
## ACH-000437 0 0 0 0
## ACH-000438 0 0 0 0
## ACH-000441 0 0 1 0
## ACH-000442 0 0 0 0
## ACH-000443 0 0 0 0
## ACH-000444 1 0 0 0
## ACH-000445 0 0 0 0
## ACH-000446 0 0 1 0
## ACH-000447 0 0 0 0
## ACH-000448 1 0 0 0
## ACH-000449 0 0 0 0
## ACH-000450 0 0 0 0
## ACH-000451 0 0 0 0
## ACH-000453 0 0 0 0
## ACH-000454 0 0 1 0
## ACH-000456 0 0 0 0
## ACH-000457 0 0 1 0
## ACH-000458 0 0 1 0
## ACH-000459 0 0 0 0
## ACH-000460 0 0 1 0
## ACH-000463 1 0 0 0
## ACH-000464 0 0 0 0
## ACH-000465 0 0 1 0
## ACH-000466 0 0 1 0
## ACH-000468 0 0 0 0
## ACH-000469 0 0 0 0
## ACH-000470 0 0 0 1
## ACH-000472 1 0 0 0
## ACH-000473 0 0 0 1
## ACH-000475 0 0 0 1
## ACH-000476 0 0 0 0
## ACH-000477 0 0 1 0
## ACH-000478 0 0 0 0
## ACH-000479 0 0 0 0
## ACH-000480 0 0 0 0
## ACH-000481 0 0 0 1
## ACH-000482 0 0 0 0
## ACH-000483 0 0 0 0
## ACH-000484 0 0 0 0
## ACH-000485 0 0 1 0
## ACH-000487 0 0 1 0
## ACH-000488 0 0 0 1
## ACH-000489 0 0 0 0
## ACH-000490 0 0 1 0
## ACH-000491 1 0 0 0
## ACH-000493 0 0 0 0
## ACH-000495 0 0 0 0
## ACH-000496 0 0 1 0
## ACH-000501 0 0 0 1
## ACH-000502 0 1 0 0
## ACH-000503 0 0 0 0
## ACH-000504 0 0 0 0
## ACH-000505 0 0 0 0
## ACH-000506 0 0 1 0
## ACH-000507 1 0 0 0
## ACH-000508 1 0 0 0
## ACH-000510 1 0 0 0
## ACH-000511 1 0 0 0
## ACH-000514 1 0 0 0
## ACH-000515 1 0 0 0
## ACH-000517 0 0 1 0
## ACH-000518 0 0 0 0
## ACH-000520 0 0 1 0
## ACH-000521 1 0 0 0
## ACH-000522 0 0 0 0
## ACH-000523 1 0 0 0
## ACH-000524 0 0 1 0
## ACH-000525 0 0 1 0
## ACH-000526 0 0 0 0
## ACH-000527 1 0 0 0
## ACH-000528 1 0 0 0
## ACH-000530 0 0 0 0
## ACH-000532 0 0 1 0
## ACH-000534 0 0 1 0
## ACH-000535 0 0 0 0
## ACH-000536 0 0 0 1
## ACH-000538 0 0 0 0
## ACH-000539 0 0 0 0
## ACH-000541 0 0 0 1
## ACH-000542 0 0 1 0
## ACH-000544 0 0 0 0
## ACH-000545 0 0 0 1
## ACH-000546 1 0 0 0
## ACH-000547 0 0 0 0
## ACH-000548 0 0 0 1
## ACH-000550 0 0 0 1
## ACH-000551 1 0 0 0
## ACH-000552 0 0 0 1
## ACH-000553 0 0 0 1
## ACH-000554 0 0 0 1
## ACH-000555 0 0 0 0
## ACH-000557 0 0 0 0
## ACH-000558 0 0 0 0
## ACH-000559 0 0 0 1
## ACH-000561 1 0 0 0
## ACH-000562 0 0 1 0
## ACH-000563 1 0 0 0
## ACH-000564 0 0 0 1
## ACH-000565 0 0 0 1
## ACH-000566 0 0 0 0
## ACH-000568 0 0 0 0
## ACH-000569 0 0 0 0
## ACH-000570 0 0 0 1
## ACH-000571 0 0 0 0
## ACH-000572 0 0 0 0
## ACH-000573 0 0 1 0
## ACH-000574 0 0 0 1
## ACH-000576 0 0 0 1
## ACH-000577 0 0 1 0
## ACH-000578 0 0 0 0
## ACH-000579 0 0 0 1
## ACH-000580 0 0 0 0
## ACH-000581 0 0 1 0
## ACH-000582 1 0 0 0
## ACH-000584 0 0 0 1
## ACH-000585 0 0 0 1
## ACH-000586 1 0 0 0
## ACH-000587 0 0 0 0
## ACH-000588 0 0 0 1
## ACH-000589 1 0 0 0
## ACH-000590 0 0 0 1
## ACH-000593 0 0 0 0
## ACH-000594 1 0 0 0
## ACH-000595 0 0 0 1
## ACH-000596 0 0 0 1
## ACH-000598 0 0 0 1
## ACH-000599 0 0 0 0
## ACH-000600 0 0 0 0
## ACH-000601 0 0 0 0
## ACH-000603 1 0 0 0
## ACH-000606 0 0 0 0
## ACH-000607 0 0 0 1
## ACH-000608 0 0 0 0
## ACH-000609 0 0 0 0
## ACH-000610 0 0 0 1
## ACH-000611 1 0 0 0
## ACH-000613 0 0 0 0
## ACH-000614 1 0 0 0
## ACH-000616 1 0 0 0
## ACH-000617 0 0 1 0
## ACH-000619 0 0 0 0
## ACH-000620 0 0 0 1
## ACH-000621 1 0 0 0
## ACH-000622 0 0 0 1
## ACH-000623 0 0 0 0
## ACH-000624 0 0 0 0
## ACH-000625 0 0 0 0
## ACH-000627 1 0 0 0
## ACH-000628 0 0 0 1
## ACH-000631 0 0 0 1
## ACH-000632 1 0 0 0
## ACH-000633 0 0 0 1
## ACH-000635 1 0 0 0
## ACH-000637 0 0 0 1
## ACH-000638 1 0 0 0
## ACH-000639 1 0 0 0
## ACH-000640 0 0 0 1
## ACH-000643 0 0 0 1
## ACH-000644 0 0 0 0
## ACH-000645 0 0 0 0
## ACH-000646 0 0 0 1
## ACH-000647 0 0 0 1
## ACH-000648 0 0 1 0
## ACH-000649 0 0 0 1
## ACH-000650 1 0 0 0
## ACH-000651 1 0 0 0
## ACH-000652 1 0 0 0
## ACH-000653 0 0 0 0
## ACH-000655 0 0 0 0
## ACH-000656 1 0 0 0
## ACH-000657 0 0 0 1
## ACH-000658 0 0 0 1
## ACH-000659 1 0 0 0
## ACH-000660 0 0 0 0
## ACH-000662 1 0 0 0
## ACH-000663 1 0 0 0
## ACH-000665 1 0 0 0
## ACH-000666 1 0 0 0
## ACH-000667 0 0 0 1
## ACH-000668 0 0 0 0
## ACH-000669 0 0 0 1
## ACH-000670 1 0 0 0
## ACH-000672 1 0 0 0
## ACH-000674 1 0 0 0
## ACH-000675 0 0 0 1
## ACH-000677 0 0 0 0
## ACH-000678 1 0 0 0
## ACH-000679 0 0 0 1
## ACH-000680 0 0 0 1
## ACH-000681 0 0 0 1
## ACH-000683 1 0 0 0
## ACH-000684 0 0 0 0
## ACH-000685 0 0 1 0
## ACH-000686 0 0 0 0
## ACH-000688 0 0 0 0
## ACH-000691 0 0 0 1
## ACH-000692 0 0 0 0
## ACH-000693 0 0 0 1
## ACH-000694 1 0 0 0
## ACH-000695 1 0 0 0
## ACH-000696 0 0 0 1
## ACH-000697 0 0 0 1
## ACH-000698 0 0 0 1
## ACH-000699 0 0 0 1
## ACH-000701 0 0 0 0
## ACH-000703 1 0 0 0
## ACH-000704 0 0 1 0
## ACH-000705 0 0 0 1
## ACH-000706 0 0 0 1
## ACH-000708 0 0 1 0
## ACH-000709 0 0 0 0
## ACH-000710 0 0 0 0
## ACH-000711 0 1 0 0
## ACH-000712 0 0 0 0
## ACH-000713 0 0 0 0
## ACH-000714 0 0 0 1
## ACH-000718 1 0 0 0
## ACH-000719 0 0 1 0
## ACH-000720 0 0 0 0
## ACH-000721 1 0 0 0
## ACH-000722 1 0 0 0
## ACH-000724 0 0 0 0
## ACH-000725 0 0 0 1
## ACH-000729 0 0 0 1
## ACH-000730 1 0 0 0
## ACH-000731 0 0 0 0
## ACH-000732 0 0 0 0
## ACH-000733 0 0 0 1
## ACH-000734 0 0 0 1
## ACH-000735 0 0 0 0
## ACH-000736 1 0 0 0
## ACH-000737 0 0 1 0
## ACH-000738 0 0 0 1
## ACH-000739 0 0 0 0
## ACH-000740 0 0 0 1
## ACH-000741 0 0 0 0
## ACH-000743 0 0 0 1
## ACH-000744 1 0 0 0
## ACH-000745 0 0 0 1
## ACH-000746 1 0 0 0
## ACH-000747 0 0 0 1
## ACH-000748 0 0 0 0
## ACH-000749 1 0 0 0
## ACH-000750 1 0 0 0
## ACH-000752 1 0 0 0
## ACH-000753 1 0 0 0
## ACH-000755 0 0 0 0
## ACH-000756 0 0 0 1
## ACH-000758 1 0 0 0
## ACH-000759 1 0 0 0
## ACH-000761 0 0 1 0
## ACH-000763 0 0 0 1
## ACH-000764 0 0 0 1
## ACH-000765 0 0 1 0
## ACH-000766 1 0 0 0
## ACH-000767 1 0 0 0
## ACH-000768 1 0 0 0
## ACH-000769 0 0 0 1
## ACH-000771 0 0 0 0
## ACH-000774 0 0 0 1
## ACH-000775 0 0 0 1
## ACH-000776 0 0 0 1
## ACH-000777 0 0 0 1
## ACH-000778 1 0 0 0
## ACH-000780 1 0 0 0
## ACH-000781 1 0 0 0
## ACH-000782 0 0 0 1
## ACH-000783 1 0 0 0
## ACH-000784 0 0 0 1
## ACH-000785 1 0 0 0
## ACH-000787 0 0 0 1
## ACH-000788 1 0 0 0
## ACH-000789 0 0 0 1
## ACH-000790 0 0 0 1
## ACH-000791 0 0 0 1
## ACH-000792 0 0 0 0
## ACH-000793 1 0 0 0
## ACH-000794 0 0 1 0
## ACH-000796 0 0 0 1
## ACH-000797 0 0 0 0
## ACH-000798 0 0 0 0
## ACH-000799 1 0 0 0
## ACH-000800 1 0 0 0
## ACH-000802 0 0 0 1
## ACH-000803 1 0 0 0
## ACH-000804 1 0 0 0
## ACH-000805 1 0 0 0
## ACH-000808 0 0 0 1
## ACH-000809 0 0 0 1
## ACH-000810 1 0 0 0
## ACH-000811 1 0 0 0
## ACH-000812 1 0 0 0
## ACH-000813 1 0 0 0
## ACH-000815 1 0 0 0
## ACH-000816 1 0 0 0
## ACH-000817 0 0 0 1
## ACH-000818 0 0 0 1
## ACH-000819 0 0 0 1
## ACH-000820 0 0 0 1
## ACH-000821 0 0 0 1
## ACH-000822 1 0 0 0
## ACH-000823 0 0 0 1
## ACH-000824 0 0 0 1
## ACH-000825 0 0 0 1
## ACH-000826 0 0 0 1
## ACH-000828 1 0 0 0
## ACH-000830 1 0 0 0
## ACH-000831 1 0 0 0
## ACH-000832 0 0 0 1
## ACH-000833 1 0 0 0
## ACH-000834 0 0 1 0
## ACH-000835 1 0 0 0
## ACH-000837 0 0 0 1
## ACH-000838 0 0 0 1
## ACH-000839 0 0 0 1
## ACH-000840 0 0 0 1
## ACH-000841 1 0 0 0
## ACH-000842 0 0 0 1
## ACH-000843 1 0 0 0
## ACH-000844 0 0 0 1
## ACH-000845 0 0 0 1
## ACH-000846 0 0 0 1
## ACH-000847 1 0 0 0
## ACH-000848 0 0 0 1
## ACH-000849 1 0 0 0
## ACH-000850 0 1 0 0
## ACH-000851 0 0 0 1
## ACH-000852 0 0 0 1
## ACH-000853 1 0 0 0
## ACH-000855 0 0 0 1
## ACH-000856 1 0 0 0
## ACH-000857 0 0 0 0
## ACH-000858 1 0 0 0
## ACH-000859 0 0 0 1
## ACH-000860 0 0 0 1
## ACH-000861 0 0 0 1
## ACH-000862 0 0 0 1
## ACH-000863 0 0 0 1
## ACH-000864 0 0 0 1
## ACH-000865 0 0 0 1
## ACH-000866 1 0 0 0
## ACH-000867 1 0 0 0
## ACH-000868 0 0 0 1
## ACH-000869 1 0 0 0
## ACH-000870 1 0 0 0
## ACH-000871 1 0 0 0
## ACH-000873 0 0 0 1
## ACH-000874 0 0 0 1
## ACH-000875 0 0 0 1
## ACH-000876 1 0 0 0
## ACH-000877 0 0 0 1
## ACH-000878 0 0 0 1
## ACH-000879 0 0 0 1
## ACH-000880 0 0 0 1
## ACH-000881 0 0 0 1
## ACH-000882 1 0 0 0
## ACH-000883 0 0 0 1
## ACH-000884 1 0 0 0
## ACH-000885 0 0 0 1
## ACH-000886 1 0 0 0
## ACH-000888 0 0 0 1
## ACH-000889 0 0 0 1
## ACH-000890 0 0 0 1
## ACH-000891 0 0 0 1
## ACH-000892 0 0 0 1
## ACH-000893 0 0 0 1
## ACH-000894 1 0 0 0
## ACH-000895 0 0 0 1
## ACH-000896 0 0 0 1
## ACH-000897 1 0 0 0
## ACH-000898 0 0 0 1
## ACH-000899 1 0 0 0
## ACH-000900 0 0 0 1
## ACH-000901 0 0 0 1
## ACH-000902 1 0 0 0
## ACH-000903 1 0 0 0
## ACH-000904 1 0 0 0
## ACH-000906 0 0 0 1
## ACH-000907 0 0 0 1
## ACH-000908 0 0 0 1
## ACH-000909 0 0 0 1
## ACH-000910 1 0 0 0
## ACH-000911 1 0 0 0
## ACH-000912 0 0 0 1
## ACH-000913 0 0 0 1
## ACH-000915 0 0 0 1
## ACH-000916 1 0 0 0
## ACH-000919 0 0 0 1
## ACH-000921 1 0 0 0
## ACH-000924 0 0 0 1
## ACH-000925 1 0 0 0
## ACH-000926 0 0 0 1
## ACH-000927 0 0 0 1
## ACH-000928 0 0 0 1
## ACH-000929 1 0 0 0
## ACH-000930 0 0 0 1
## ACH-000931 0 0 0 1
## ACH-000932 1 0 0 0
## ACH-000934 1 0 0 0
## ACH-000936 1 0 0 0
## ACH-000938 0 0 0 1
## ACH-000939 0 0 0 1
## ACH-000940 1 0 0 0
## ACH-000941 0 0 0 1
## ACH-000942 0 0 0 1
## ACH-000943 0 0 0 1
## ACH-000945 1 0 0 0
## ACH-000946 0 0 0 1
## ACH-000947 1 0 0 0
## ACH-000948 0 0 0 1
## ACH-000949 1 0 0 0
## ACH-000950 1 0 0 0
## ACH-000951 0 0 0 1
## ACH-000952 1 0 0 0
## ACH-000953 1 0 0 0
## ACH-000954 0 0 0 1
## ACH-000955 1 0 0 0
## ACH-000956 0 0 0 1
## ACH-000957 0 0 0 1
## ACH-000958 0 0 0 1
## ACH-000960 0 0 0 1
## ACH-000961 0 0 0 1
## ACH-000962 1 0 0 0
## ACH-000963 1 0 0 0
## ACH-000965 0 0 0 1
## ACH-000966 0 0 0 1
## ACH-000967 0 0 0 1
## ACH-000968 1 0 0 0
## ACH-000969 0 0 0 1
## ACH-000971 0 0 0 1
## ACH-000972 0 0 0 1
## ACH-000973 0 0 0 1
## ACH-000974 1 0 0 0
## ACH-000976 1 0 0 0
## ACH-000977 1 0 0 0
## ACH-000978 0 0 0 1
## ACH-000980 1 0 0 0
## ACH-000981 0 0 0 1
## ACH-000982 0 0 0 1
## ACH-000984 0 0 0 1
## ACH-000985 0 0 0 1
## ACH-000987 1 0 0 0
## ACH-000989 1 0 0 0
## ACH-000990 0 0 0 1
## ACH-000993 0 0 0 1
## ACH-000994 0 0 0 1
## ACH-000995 0 0 0 1
## ACH-000996 0 0 0 1
## ACH-000997 0 0 0 1
## ACH-000998 0 0 0 1
## ACH-001001 0 0 0 0
## ACH-001041 0 1 0 0
## ACH-001048 0 1 0 0
## ACH-001061 0 0 0 1
## ACH-001075 0 0 1 0
## ACH-001078 0 0 0 0
## ACH-001106 0 0 0 0
## ACH-001113 0 0 0 1
## ACH-001129 0 0 0 0
## ACH-001145 1 0 0 0
## ACH-001151 0 1 0 0
## ACH-001163 0 1 0 0
## ACH-001184 1 0 0 0
## ACH-001190 1 0 0 0
## ACH-001192 0 1 0 0
## ACH-001194 0 1 0 0
## ACH-001200 0 0 1 0
## ACH-001210 0 1 0 0
## ACH-001229 0 0 0 0
## ACH-001239 1 0 0 0
## ACH-001277 0 0 1 0
## ACH-001278 0 1 0 0
## ACH-001283 0 1 0 0
## ACH-001306 0 0 0 0
## ACH-001307 0 0 0 0
## ACH-001318 0 0 0 1
## ACH-001321 0 0 0 0
## ACH-001328 0 0 0 1
## ACH-001329 0 0 0 0
## ACH-001332 0 0 0 0
## ACH-001333 0 0 0 1
## ACH-001334 0 0 0 0
## ACH-001335 0 0 0 0
## ACH-001336 1 0 0 0
## ACH-001339 0 0 0 0
## ACH-001340 0 1 0 0
## ACH-001341 0 0 0 0
## ACH-001344 1 0 0 0
## ACH-001345 0 0 0 1
## ACH-001346 0 0 0 0
## ACH-001347 0 0 0 0
## ACH-001353 0 0 0 0
## ACH-001354 0 0 0 0
## ACH-001356 0 0 0 0
## ACH-001360 0 1 0 0
## ACH-001366 1 0 0 0
## ACH-001367 1 0 0 0
## ACH-001368 0 1 0 0
## ACH-001369 0 0 0 1
## ACH-001370 0 0 0 0
## ACH-001373 0 1 0 0
## ACH-001374 0 0 1 0
## ACH-001375 0 0 0 0
## ACH-001376 0 1 0 0
## ACH-001377 0 0 0 1
## ACH-001378 0 0 0 0
## ACH-001379 0 1 0 0
## ACH-001380 0 1 0 0
## ACH-001382 0 1 0 0
## ACH-001384 0 1 0 0
## ACH-001385 0 1 0 0
## ACH-001386 1 0 0 0
## ACH-001388 0 0 0 0
## ACH-001389 0 0 1 0
## ACH-001390 0 0 0 1
## ACH-001391 0 0 0 0
## ACH-001392 0 1 0 0
## ACH-001394 0 1 0 0
## ACH-001395 0 0 1 0
## ACH-001396 0 1 0 0
## ACH-001398 0 0 0 1
## ACH-001399 0 0 1 0
## ACH-001400 0 0 0 0
## ACH-001401 0 0 0 1
## ACH-001402 0 0 0 1
## ACH-001403 0 1 0 0
## ACH-001407 1 0 0 0
## ACH-001408 0 0 1 0
## ACH-001409 0 0 0 0
## ACH-001410 0 1 0 0
## ACH-001411 0 0 0 0
## ACH-001412 0 0 0 1
## ACH-001413 0 0 0 1
## ACH-001414 0 0 0 1
## ACH-001415 0 0 0 1
## ACH-001416 0 0 0 1
## ACH-001418 0 0 0 0
## ACH-001419 0 0 0 0
## ACH-001421 0 0 0 0
## ACH-001422 0 0 0 0
## ACH-001433 0 1 0 0
## ACH-001441 0 1 0 0
## ACH-001442 0 0 1 0
## ACH-001443 0 0 0 1
## ACH-001450 0 0 0 0
## ACH-001451 0 0 0 0
## ACH-001453 0 0 0 0
## ACH-001454 0 0 0 0
## ACH-001456 0 0 0 0
## ACH-001458 0 0 0 0
## ACH-001459 0 0 0 0
## ACH-001460 0 0 0 0
## ACH-001461 0 0 0 0
## ACH-001484 0 0 0 1
## ACH-001485 0 0 0 1
## ACH-001494 0 0 0 0
## ACH-001495 0 0 0 0
## ACH-001496 0 0 0 0
## ACH-001497 0 0 0 0
## ACH-001498 1 0 0 0
## ACH-001500 0 0 0 0
## ACH-001509 0 0 0 0
## ACH-001510 0 0 0 0
## ACH-001511 0 0 0 0
## ACH-001513 1 0 0 0
## ACH-001515 1 0 0 0
## ACH-001516 0 0 0 1
## ACH-001517 0 0 0 1
## ACH-001518 0 0 0 1
## ACH-001519 0 0 0 0
## ACH-001520 0 0 0 0
## ACH-001521 0 0 0 1
## ACH-001522 0 0 1 0
## ACH-001523 0 0 0 1
## ACH-001524 0 0 0 1
## ACH-001525 1 0 0 0
## ACH-001526 0 0 0 0
## ACH-001528 1 0 0 0
## ACH-001529 0 0 0 1
## ACH-001530 1 0 0 0
## ACH-001532 0 1 0 0
## ACH-001536 0 0 0 1
## ACH-001538 0 0 0 0
## ACH-001539 0 0 0 1
## ACH-001540 0 0 0 0
## ACH-001541 0 0 0 0
## ACH-001542 1 0 0 0
## ACH-001543 0 0 0 0
## ACH-001548 0 1 0 0
## ACH-001549 0 0 0 1
## ACH-001550 1 0 0 0
## ACH-001551 1 0 0 0
## ACH-001552 0 0 0 1
## ACH-001554 0 0 0 0
## ACH-001555 0 0 0 0
## ACH-001556 0 0 0 0
## ACH-001557 0 0 0 0
## ACH-001558 0 0 0 0
## ACH-001559 0 0 0 0
## ACH-001560 0 0 0 0
## ACH-001561 0 0 0 0
## ACH-001562 0 0 0 0
## ACH-001563 1 0 0 0
## ACH-001566 1 0 0 0
## ACH-001567 1 0 0 0
## ACH-001568 1 0 0 0
## ACH-001569 1 0 0 0
## ACH-001570 1 0 0 0
## ACH-001573 0 1 0 0
## ACH-001574 0 0 0 0
## ACH-001577 0 0 0 0
## ACH-001578 0 0 0 0
## ACH-001603 0 0 0 0
## ACH-001605 0 0 0 0
## ACH-001607 0 0 1 0
## ACH-001608 0 0 0 1
## ACH-001609 0 0 0 0
## ACH-001610 0 0 0 1
## ACH-001611 0 0 0 0
## ACH-001613 0 0 0 0
## ACH-001616 0 0 0 0
## ACH-001617 0 0 0 0
## ACH-001618 0 0 0 0
## ACH-001619 0 0 1 0
## ACH-001622 0 0 0 0
## ACH-001623 0 0 0 1
## ACH-001624 0 0 0 0
## ACH-001625 1 0 0 0
## ACH-001626 0 0 1 0
## ACH-001627 0 0 0 0
## ACH-001628 0 1 0 0
## ACH-001630 0 0 1 0
## ACH-001632 0 1 0 0
## ACH-001634 0 0 0 0
## ACH-001636 0 0 0 0
## ACH-001638 0 0 0 1
## ACH-001642 0 0 0 0
## ACH-001645 0 0 0 1
## ACH-001647 0 0 1 0
## ACH-001648 0 0 0 0
## ACH-001649 0 0 0 0
## ACH-001650 0 0 0 1
## ACH-001651 0 0 0 0
## ACH-001652 0 0 0 0
## ACH-001653 0 0 0 1
## ACH-001654 0 0 0 0
## ACH-001655 0 0 0 0
## ACH-001656 0 0 1 0
## ACH-001664 1 0 0 0
## ACH-001668 0 0 0 0
## ACH-001670 0 0 0 0
## ACH-001673 0 0 0 0
## ACH-001674 0 0 0 1
## ACH-001677 0 0 0 0
## ACH-001685 0 0 0 0
## ACH-001687 0 0 0 0
## ACH-001688 0 0 0 0
## ACH-001690 0 0 0 0
## ACH-001692 0 0 0 0
## ACH-001694 0 0 0 1
## ACH-001698 0 0 0 0
## ACH-001699 0 0 0 0
## ACH-001702 0 1 0 0
## ACH-001703 0 1 0 0
## ACH-001709 0 0 0 1
## ACH-001711 0 0 0 0
## ACH-001719 0 0 0 1
## ACH-001740 0 0 1 0
## ACH-001765 0 1 0 0
## ACH-001786 0 0 0 1
## ACH-001794 0 0 0 0
## ACH-001807 0 0 0 0
## ACH-001814 0 0 0 0
## ACH-001818 0 1 0 0
## ACH-001819 0 0 1 0
## ACH-001820 0 0 1 0
## ACH-001850 0 0 1 0
## ACH-001861 0 0 1 0
## ACH-001961 0 1 0 0
## ACH-001991 0 0 0 1
## ACH-002011 0 0 0 0
## ACH-002015 0 0 0 0
## ACH-002016 0 0 0 0
## ACH-002017 0 0 1 0
## ACH-002018 0 1 0 0
## ACH-002019 0 0 0 0
## ACH-002022 0 0 0 1
## ACH-002023 0 0 0 0
## ACH-002024 0 0 0 1
## ACH-002025 0 0 0 0
## ACH-002026 0 0 0 1
## ACH-002027 0 0 0 1
## ACH-002029 0 0 0 1
## ACH-002038 0 0 0 0
## ACH-002039 0 0 1 0
## ACH-002041 0 0 0 1
## ACH-002042 0 0 0 0
## ACH-002044 0 0 0 0
## ACH-002045 0 0 0 1
## ACH-002046 0 0 0 0
## ACH-002059 0 0 0 1
## ACH-002062 0 0 0 1
## ACH-002065 0 0 1 0
## ACH-002066 0 0 0 0
## ACH-002067 0 0 0 0
## ACH-002069 0 0 0 0
## ACH-002446 0 0 1 0
## ACH-002508 1 0 0 0
## ACH-002509 1 0 0 0
## ACH-002510 1 0 0 0
## ACH-002511 0 0 0 0
## Primary.Low Primary.Medium
## ACH-000001 0 0
## ACH-000002 1 0
## ACH-000006 1 0
## ACH-000007 0 1
## ACH-000009 0 1
## ACH-000011 0 0
## ACH-000012 1 0
## ACH-000013 0 0
## ACH-000014 0 0
## ACH-000015 0 1
## ACH-000016 0 0
## ACH-000017 0 0
## ACH-000018 1 0
## ACH-000019 0 0
## ACH-000021 0 0
## ACH-000022 0 0
## ACH-000023 0 0
## ACH-000024 0 0
## ACH-000026 0 0
## ACH-000027 1 0
## ACH-000028 0 0
## ACH-000029 0 1
## ACH-000030 0 0
## ACH-000031 1 0
## ACH-000033 0 0
## ACH-000035 0 0
## ACH-000039 0 0
## ACH-000040 1 0
## ACH-000041 1 0
## ACH-000042 1 0
## ACH-000043 0 0
## ACH-000044 0 0
## ACH-000045 1 0
## ACH-000046 0 0
## ACH-000048 1 0
## ACH-000050 0 0
## ACH-000051 1 0
## ACH-000052 1 0
## ACH-000054 0 0
## ACH-000055 0 0
## ACH-000056 0 0
## ACH-000059 1 0
## ACH-000060 1 0
## ACH-000062 0 1
## ACH-000065 1 0
## ACH-000066 0 0
## ACH-000067 1 0
## ACH-000070 1 0
## ACH-000073 1 0
## ACH-000075 1 0
## ACH-000078 0 0
## ACH-000082 1 0
## ACH-000085 1 0
## ACH-000087 1 0
## ACH-000089 0 0
## ACH-000090 0 0
## ACH-000091 0 0
## ACH-000092 0 0
## ACH-000093 1 0
## ACH-000094 0 0
## ACH-000096 1 0
## ACH-000097 0 0
## ACH-000098 1 0
## ACH-000100 0 0
## ACH-000102 1 0
## ACH-000103 0 0
## ACH-000105 1 0
## ACH-000107 1 0
## ACH-000108 0 0
## ACH-000109 0 1
## ACH-000111 1 0
## ACH-000113 1 0
## ACH-000114 0 0
## ACH-000115 0 0
## ACH-000116 0 0
## ACH-000117 0 0
## ACH-000118 0 0
## ACH-000121 0 0
## ACH-000123 1 0
## ACH-000124 1 0
## ACH-000125 0 0
## ACH-000126 0 1
## ACH-000127 0 1
## ACH-000129 0 0
## ACH-000131 1 0
## ACH-000132 0 1
## ACH-000133 1 0
## ACH-000135 1 0
## ACH-000136 1 0
## ACH-000137 1 0
## ACH-000138 0 0
## ACH-000139 1 0
## ACH-000140 0 0
## ACH-000142 1 0
## ACH-000144 0 0
## ACH-000145 1 0
## ACH-000146 0 1
## ACH-000147 0 0
## ACH-000148 1 0
## ACH-000149 0 0
## ACH-000150 1 0
## ACH-000152 1 0
## ACH-000153 0 0
## ACH-000155 1 0
## ACH-000157 0 0
## ACH-000158 0 1
## ACH-000159 0 1
## ACH-000161 0 0
## ACH-000163 1 0
## ACH-000164 1 0
## ACH-000166 0 1
## ACH-000167 0 0
## ACH-000168 0 1
## ACH-000169 0 1
## ACH-000171 1 0
## ACH-000172 0 0
## ACH-000174 1 0
## ACH-000176 1 0
## ACH-000177 0 0
## ACH-000178 0 0
## ACH-000179 0 0
## ACH-000181 0 1
## ACH-000183 0 1
## ACH-000186 0 1
## ACH-000187 1 0
## ACH-000188 1 0
## ACH-000189 0 1
## ACH-000191 0 0
## ACH-000192 0 1
## ACH-000193 1 0
## ACH-000194 1 0
## ACH-000196 0 0
## ACH-000197 0 1
## ACH-000200 0 1
## ACH-000201 1 0
## ACH-000202 0 1
## ACH-000203 0 0
## ACH-000204 0 1
## ACH-000205 0 0
## ACH-000207 0 0
## ACH-000210 0 0
## ACH-000211 0 1
## ACH-000212 0 0
## ACH-000213 0 0
## ACH-000217 0 1
## ACH-000219 0 0
## ACH-000221 0 1
## ACH-000222 0 0
## ACH-000223 0 1
## ACH-000227 0 0
## ACH-000228 1 0
## ACH-000229 1 0
## ACH-000231 0 1
## ACH-000232 0 1
## ACH-000234 1 0
## ACH-000235 0 1
## ACH-000236 0 1
## ACH-000237 0 1
## ACH-000238 0 1
## ACH-000239 0 0
## ACH-000240 1 0
## ACH-000242 1 0
## ACH-000244 1 0
## ACH-000246 0 0
## ACH-000247 0 0
## ACH-000248 0 0
## ACH-000249 1 0
## ACH-000250 0 1
## ACH-000252 0 1
## ACH-000253 0 0
## ACH-000255 0 0
## ACH-000256 0 0
## ACH-000257 0 0
## ACH-000258 0 0
## ACH-000259 0 1
## ACH-000260 0 0
## ACH-000261 0 0
## ACH-000263 0 1
## ACH-000264 0 0
## ACH-000265 0 0
## ACH-000269 0 1
## ACH-000270 0 1
## ACH-000271 0 0
## ACH-000272 1 0
## ACH-000273 1 0
## ACH-000275 0 0
## ACH-000276 0 1
## ACH-000277 0 1
## ACH-000278 0 0
## ACH-000280 0 1
## ACH-000281 0 1
## ACH-000282 0 0
## ACH-000285 0 1
## ACH-000286 0 1
## ACH-000288 1 0
## ACH-000290 0 0
## ACH-000291 0 0
## ACH-000292 0 0
## ACH-000293 1 0
## ACH-000294 0 1
## ACH-000296 0 0
## ACH-000297 0 0
## ACH-000298 0 0
## ACH-000300 0 0
## ACH-000301 0 1
## ACH-000302 0 1
## ACH-000303 0 0
## ACH-000304 0 0
## ACH-000306 1 0
## ACH-000307 0 0
## ACH-000308 0 0
## ACH-000310 0 0
## ACH-000311 0 0
## ACH-000312 0 0
## ACH-000313 0 1
## ACH-000314 0 0
## ACH-000315 0 0
## ACH-000317 0 1
## ACH-000318 0 1
## ACH-000320 0 1
## ACH-000322 0 0
## ACH-000323 1 0
## ACH-000324 0 1
## ACH-000325 0 0
## ACH-000327 1 0
## ACH-000329 1 0
## ACH-000330 0 0
## ACH-000332 0 0
## ACH-000333 1 0
## ACH-000334 0 0
## ACH-000335 0 0
## ACH-000336 1 0
## ACH-000338 0 1
## ACH-000341 0 0
## ACH-000343 0 1
## ACH-000344 0 0
## ACH-000345 0 0
## ACH-000347 0 0
## ACH-000348 0 0
## ACH-000349 0 1
## ACH-000350 0 0
## ACH-000351 0 0
## ACH-000352 0 0
## ACH-000353 0 0
## ACH-000354 0 0
## ACH-000355 0 0
## ACH-000356 0 0
## ACH-000358 0 0
## ACH-000359 1 0
## ACH-000360 0 0
## ACH-000361 0 0
## ACH-000362 0 1
## ACH-000363 0 1
## ACH-000364 0 1
## ACH-000365 0 0
## ACH-000366 0 0
## ACH-000367 0 0
## ACH-000368 0 1
## ACH-000373 0 1
## ACH-000374 1 0
## ACH-000375 0 1
## ACH-000376 0 1
## ACH-000378 0 0
## ACH-000379 0 0
## ACH-000380 0 1
## ACH-000381 0 0
## ACH-000382 0 0
## ACH-000383 0 1
## ACH-000384 0 1
## ACH-000386 0 1
## ACH-000388 0 0
## ACH-000389 0 1
## ACH-000390 0 1
## ACH-000391 0 0
## ACH-000392 0 0
## ACH-000393 0 1
## ACH-000394 0 0
## ACH-000395 0 0
## ACH-000396 0 1
## ACH-000397 0 1
## ACH-000399 0 0
## ACH-000400 0 0
## ACH-000401 0 0
## ACH-000403 0 0
## ACH-000404 0 1
## ACH-000406 0 0
## ACH-000407 0 1
## ACH-000409 0 0
## ACH-000410 0 1
## ACH-000411 1 0
## ACH-000412 0 1
## ACH-000414 0 0
## ACH-000415 1 0
## ACH-000416 0 0
## ACH-000417 0 1
## ACH-000418 1 0
## ACH-000419 0 0
## ACH-000420 0 1
## ACH-000421 0 1
## ACH-000422 0 1
## ACH-000423 0 0
## ACH-000424 0 1
## ACH-000427 0 0
## ACH-000429 0 0
## ACH-000430 0 1
## ACH-000431 0 0
## ACH-000433 0 0
## ACH-000434 0 0
## ACH-000435 0 0
## ACH-000437 0 1
## ACH-000438 0 1
## ACH-000441 0 0
## ACH-000442 0 1
## ACH-000443 0 1
## ACH-000444 0 0
## ACH-000445 0 1
## ACH-000446 0 0
## ACH-000447 0 1
## ACH-000448 0 0
## ACH-000449 0 1
## ACH-000450 0 1
## ACH-000451 0 1
## ACH-000453 0 1
## ACH-000454 0 0
## ACH-000456 0 1
## ACH-000457 0 0
## ACH-000458 0 0
## ACH-000459 0 1
## ACH-000460 0 0
## ACH-000463 0 0
## ACH-000464 0 1
## ACH-000465 0 0
## ACH-000466 0 0
## ACH-000468 0 1
## ACH-000469 0 1
## ACH-000470 0 0
## ACH-000472 0 0
## ACH-000473 0 0
## ACH-000475 0 0
## ACH-000476 0 1
## ACH-000477 0 0
## ACH-000478 0 1
## ACH-000479 0 1
## ACH-000480 0 1
## ACH-000481 0 0
## ACH-000482 0 1
## ACH-000483 0 1
## ACH-000484 1 0
## ACH-000485 0 0
## ACH-000487 0 0
## ACH-000488 0 0
## ACH-000489 0 1
## ACH-000490 0 0
## ACH-000491 0 0
## ACH-000493 0 1
## ACH-000495 0 1
## ACH-000496 0 0
## ACH-000501 0 0
## ACH-000502 0 0
## ACH-000503 0 1
## ACH-000504 0 1
## ACH-000505 0 1
## ACH-000506 0 0
## ACH-000507 0 0
## ACH-000508 0 0
## ACH-000510 0 0
## ACH-000511 0 0
## ACH-000514 0 0
## ACH-000515 0 0
## ACH-000517 0 0
## ACH-000518 0 1
## ACH-000520 0 0
## ACH-000521 0 0
## ACH-000522 0 1
## ACH-000523 0 0
## ACH-000524 0 0
## ACH-000525 0 0
## ACH-000526 1 0
## ACH-000527 0 0
## ACH-000528 0 0
## ACH-000530 0 1
## ACH-000532 0 0
## ACH-000534 0 0
## ACH-000535 1 0
## ACH-000536 0 0
## ACH-000538 0 1
## ACH-000539 1 0
## ACH-000541 0 0
## ACH-000542 0 0
## ACH-000544 0 1
## ACH-000545 0 0
## ACH-000546 0 0
## ACH-000547 0 1
## ACH-000548 0 0
## ACH-000550 0 0
## ACH-000551 0 0
## ACH-000552 0 0
## ACH-000553 0 0
## ACH-000554 0 0
## ACH-000555 1 0
## ACH-000557 1 0
## ACH-000558 0 1
## ACH-000559 0 0
## ACH-000561 0 0
## ACH-000562 0 0
## ACH-000563 0 0
## ACH-000564 0 0
## ACH-000565 0 0
## ACH-000566 0 1
## ACH-000568 0 1
## ACH-000569 1 0
## ACH-000570 0 0
## ACH-000571 0 1
## ACH-000572 0 1
## ACH-000573 0 0
## ACH-000574 0 0
## ACH-000576 0 0
## ACH-000577 0 0
## ACH-000578 0 1
## ACH-000579 0 0
## ACH-000580 0 1
## ACH-000581 0 0
## ACH-000582 0 0
## ACH-000584 0 0
## ACH-000585 0 0
## ACH-000586 0 0
## ACH-000587 0 1
## ACH-000588 0 0
## ACH-000589 0 0
## ACH-000590 0 0
## ACH-000593 0 1
## ACH-000594 0 0
## ACH-000595 0 0
## ACH-000596 0 0
## ACH-000598 0 0
## ACH-000599 0 1
## ACH-000600 1 0
## ACH-000601 0 1
## ACH-000603 0 0
## ACH-000606 1 0
## ACH-000607 0 0
## ACH-000608 0 1
## ACH-000609 0 1
## ACH-000610 0 0
## ACH-000611 0 0
## ACH-000613 1 0
## ACH-000614 0 0
## ACH-000616 0 0
## ACH-000617 0 0
## ACH-000619 0 1
## ACH-000620 0 0
## ACH-000621 0 0
## ACH-000622 0 0
## ACH-000623 0 1
## ACH-000624 0 1
## ACH-000625 0 1
## ACH-000627 0 0
## ACH-000628 0 0
## ACH-000631 0 0
## ACH-000632 0 0
## ACH-000633 0 0
## ACH-000635 0 0
## ACH-000637 0 0
## ACH-000638 0 0
## ACH-000639 0 0
## ACH-000640 0 0
## ACH-000643 0 0
## ACH-000644 0 1
## ACH-000645 1 0
## ACH-000646 0 0
## ACH-000647 0 0
## ACH-000648 0 0
## ACH-000649 0 0
## ACH-000650 0 0
## ACH-000651 0 0
## ACH-000652 0 0
## ACH-000653 0 1
## ACH-000655 0 1
## ACH-000656 0 0
## ACH-000657 0 0
## ACH-000658 0 0
## ACH-000659 0 0
## ACH-000660 0 1
## ACH-000662 0 0
## ACH-000663 0 0
## ACH-000665 0 0
## ACH-000666 0 0
## ACH-000667 0 0
## ACH-000668 0 1
## ACH-000669 0 0
## ACH-000670 0 0
## ACH-000672 0 0
## ACH-000674 0 0
## ACH-000675 0 0
## ACH-000677 0 1
## ACH-000678 0 0
## ACH-000679 0 0
## ACH-000680 0 0
## ACH-000681 0 0
## ACH-000683 0 0
## ACH-000684 0 1
## ACH-000685 0 0
## ACH-000686 0 1
## ACH-000688 1 0
## ACH-000691 0 0
## ACH-000692 0 1
## ACH-000693 0 0
## ACH-000694 0 0
## ACH-000695 0 0
## ACH-000696 0 0
## ACH-000697 0 0
## ACH-000698 0 0
## ACH-000699 0 0
## ACH-000701 0 1
## ACH-000703 0 0
## ACH-000704 0 0
## ACH-000705 0 0
## ACH-000706 0 0
## ACH-000708 0 0
## ACH-000709 0 1
## ACH-000710 1 0
## ACH-000711 0 0
## ACH-000712 0 1
## ACH-000713 0 1
## ACH-000714 0 0
## ACH-000718 0 0
## ACH-000719 0 0
## ACH-000720 0 1
## ACH-000721 0 0
## ACH-000722 0 0
## ACH-000724 0 1
## ACH-000725 0 0
## ACH-000729 0 0
## ACH-000730 0 0
## ACH-000731 1 0
## ACH-000732 1 0
## ACH-000733 0 0
## ACH-000734 0 0
## ACH-000735 0 1
## ACH-000736 0 0
## ACH-000737 0 0
## ACH-000738 0 0
## ACH-000739 0 1
## ACH-000740 0 0
## ACH-000741 0 1
## ACH-000743 0 0
## ACH-000744 0 0
## ACH-000745 0 0
## ACH-000746 0 0
## ACH-000747 0 0
## ACH-000748 0 1
## ACH-000749 0 0
## ACH-000750 0 0
## ACH-000752 0 0
## ACH-000753 0 0
## ACH-000755 0 1
## ACH-000756 0 0
## ACH-000758 0 0
## ACH-000759 0 0
## ACH-000761 0 0
## ACH-000763 0 0
## ACH-000764 0 0
## ACH-000765 0 0
## ACH-000766 0 0
## ACH-000767 0 0
## ACH-000768 0 0
## ACH-000769 0 0
## ACH-000771 0 1
## ACH-000774 0 0
## ACH-000775 0 0
## ACH-000776 0 0
## ACH-000777 0 0
## ACH-000778 0 0
## ACH-000780 0 0
## ACH-000781 0 0
## ACH-000782 0 0
## ACH-000783 0 0
## ACH-000784 0 0
## ACH-000785 0 0
## ACH-000787 0 0
## ACH-000788 0 0
## ACH-000789 0 0
## ACH-000790 0 0
## ACH-000791 0 0
## ACH-000792 0 1
## ACH-000793 0 0
## ACH-000794 0 0
## ACH-000796 0 0
## ACH-000797 0 1
## ACH-000798 0 1
## ACH-000799 0 0
## ACH-000800 0 0
## ACH-000802 0 0
## ACH-000803 0 0
## ACH-000804 0 0
## ACH-000805 0 0
## ACH-000808 0 0
## ACH-000809 0 0
## ACH-000810 0 0
## ACH-000811 0 0
## ACH-000812 0 0
## ACH-000813 0 0
## ACH-000815 0 0
## ACH-000816 0 0
## ACH-000817 0 0
## ACH-000818 0 0
## ACH-000819 0 0
## ACH-000820 0 0
## ACH-000821 0 0
## ACH-000822 0 0
## ACH-000823 0 0
## ACH-000824 0 0
## ACH-000825 0 0
## ACH-000826 0 0
## ACH-000828 0 0
## ACH-000830 0 0
## ACH-000831 0 0
## ACH-000832 0 0
## ACH-000833 0 0
## ACH-000834 0 0
## ACH-000835 0 0
## ACH-000837 0 0
## ACH-000838 0 0
## ACH-000839 0 0
## ACH-000840 0 0
## ACH-000841 0 0
## ACH-000842 0 0
## ACH-000843 0 0
## ACH-000844 0 0
## ACH-000845 0 0
## ACH-000846 0 0
## ACH-000847 0 0
## ACH-000848 0 0
## ACH-000849 0 0
## ACH-000850 0 0
## ACH-000851 0 0
## ACH-000852 0 0
## ACH-000853 0 0
## ACH-000855 0 0
## ACH-000856 0 0
## ACH-000857 0 1
## ACH-000858 0 0
## ACH-000859 0 0
## ACH-000860 0 0
## ACH-000861 0 0
## ACH-000862 0 0
## ACH-000863 0 0
## ACH-000864 0 0
## ACH-000865 0 0
## ACH-000866 0 0
## ACH-000867 0 0
## ACH-000868 0 0
## ACH-000869 0 0
## ACH-000870 0 0
## ACH-000871 0 0
## ACH-000873 0 0
## ACH-000874 0 0
## ACH-000875 0 0
## ACH-000876 0 0
## ACH-000877 0 0
## ACH-000878 0 0
## ACH-000879 0 0
## ACH-000880 0 0
## ACH-000881 0 0
## ACH-000882 0 0
## ACH-000883 0 0
## ACH-000884 0 0
## ACH-000885 0 0
## ACH-000886 0 0
## ACH-000888 0 0
## ACH-000889 0 0
## ACH-000890 0 0
## ACH-000891 0 0
## ACH-000892 0 0
## ACH-000893 0 0
## ACH-000894 0 0
## ACH-000895 0 0
## ACH-000896 0 0
## ACH-000897 0 0
## ACH-000898 0 0
## ACH-000899 0 0
## ACH-000900 0 0
## ACH-000901 0 0
## ACH-000902 0 0
## ACH-000903 0 0
## ACH-000904 0 0
## ACH-000906 0 0
## ACH-000907 0 0
## ACH-000908 0 0
## ACH-000909 0 0
## ACH-000910 0 0
## ACH-000911 0 0
## ACH-000912 0 0
## ACH-000913 0 0
## ACH-000915 0 0
## ACH-000916 0 0
## ACH-000919 0 0
## ACH-000921 0 0
## ACH-000924 0 0
## ACH-000925 0 0
## ACH-000926 0 0
## ACH-000927 0 0
## ACH-000928 0 0
## ACH-000929 0 0
## ACH-000930 0 0
## ACH-000931 0 0
## ACH-000932 0 0
## ACH-000934 0 0
## ACH-000936 0 0
## ACH-000938 0 0
## ACH-000939 0 0
## ACH-000940 0 0
## ACH-000941 0 0
## ACH-000942 0 0
## ACH-000943 0 0
## ACH-000945 0 0
## ACH-000946 0 0
## ACH-000947 0 0
## ACH-000948 0 0
## ACH-000949 0 0
## ACH-000950 0 0
## ACH-000951 0 0
## ACH-000952 0 0
## ACH-000953 0 0
## ACH-000954 0 0
## ACH-000955 0 0
## ACH-000956 0 0
## ACH-000957 0 0
## ACH-000958 0 0
## ACH-000960 0 0
## ACH-000961 0 0
## ACH-000962 0 0
## ACH-000963 0 0
## ACH-000965 0 0
## ACH-000966 0 0
## ACH-000967 0 0
## ACH-000968 0 0
## ACH-000969 0 0
## ACH-000971 0 0
## ACH-000972 0 0
## ACH-000973 0 0
## ACH-000974 0 0
## ACH-000976 0 0
## ACH-000977 0 0
## ACH-000978 0 0
## ACH-000980 0 0
## ACH-000981 0 0
## ACH-000982 0 0
## ACH-000984 0 0
## ACH-000985 0 0
## ACH-000987 0 0
## ACH-000989 0 0
## ACH-000990 0 0
## ACH-000993 0 0
## ACH-000994 0 0
## ACH-000995 0 0
## ACH-000996 0 0
## ACH-000997 0 0
## ACH-000998 0 0
## ACH-001001 0 1
## ACH-001041 0 0
## ACH-001048 0 0
## ACH-001061 0 0
## ACH-001075 0 0
## ACH-001078 0 1
## ACH-001106 0 1
## ACH-001113 0 0
## ACH-001129 1 0
## ACH-001145 0 0
## ACH-001151 0 0
## ACH-001163 0 0
## ACH-001184 0 0
## ACH-001190 0 0
## ACH-001192 0 0
## ACH-001194 0 0
## ACH-001200 0 0
## ACH-001210 0 0
## ACH-001229 1 0
## ACH-001239 0 0
## ACH-001277 0 0
## ACH-001278 0 0
## ACH-001283 0 0
## ACH-001306 0 1
## ACH-001307 0 1
## ACH-001318 0 0
## ACH-001321 0 1
## ACH-001328 0 0
## ACH-001329 0 1
## ACH-001332 1 0
## ACH-001333 0 0
## ACH-001334 0 1
## ACH-001335 0 1
## ACH-001336 0 0
## ACH-001339 0 1
## ACH-001340 0 0
## ACH-001341 0 1
## ACH-001344 0 0
## ACH-001345 0 0
## ACH-001346 1 0
## ACH-001347 1 0
## ACH-001353 1 0
## ACH-001354 1 0
## ACH-001356 1 0
## ACH-001360 0 0
## ACH-001366 0 0
## ACH-001367 0 0
## ACH-001368 0 0
## ACH-001369 0 0
## ACH-001370 1 0
## ACH-001373 0 0
## ACH-001374 0 0
## ACH-001375 1 0
## ACH-001376 0 0
## ACH-001377 0 0
## ACH-001378 1 0
## ACH-001379 0 0
## ACH-001380 0 0
## ACH-001382 0 0
## ACH-001384 0 0
## ACH-001385 0 0
## ACH-001386 0 0
## ACH-001388 1 0
## ACH-001389 0 0
## ACH-001390 0 0
## ACH-001391 1 0
## ACH-001392 0 0
## ACH-001394 0 0
## ACH-001395 0 0
## ACH-001396 0 0
## ACH-001398 0 0
## ACH-001399 0 0
## ACH-001400 0 1
## ACH-001401 0 0
## ACH-001402 0 0
## ACH-001403 0 0
## ACH-001407 0 0
## ACH-001408 0 0
## ACH-001409 0 1
## ACH-001410 0 0
## ACH-001411 0 1
## ACH-001412 0 0
## ACH-001413 0 0
## ACH-001414 0 0
## ACH-001415 0 0
## ACH-001416 0 0
## ACH-001418 1 0
## ACH-001419 1 0
## ACH-001421 1 0
## ACH-001422 1 0
## ACH-001433 0 0
## ACH-001441 0 0
## ACH-001442 0 0
## ACH-001443 0 0
## ACH-001450 1 0
## ACH-001451 1 0
## ACH-001453 1 0
## ACH-001454 1 0
## ACH-001456 1 0
## ACH-001458 0 1
## ACH-001459 1 0
## ACH-001460 1 0
## ACH-001461 1 0
## ACH-001484 0 0
## ACH-001485 0 0
## ACH-001494 0 1
## ACH-001495 1 0
## ACH-001496 0 1
## ACH-001497 0 1
## ACH-001498 0 0
## ACH-001500 0 1
## ACH-001509 1 0
## ACH-001510 0 1
## ACH-001511 1 0
## ACH-001513 0 0
## ACH-001515 0 0
## ACH-001516 0 0
## ACH-001517 0 0
## ACH-001518 0 0
## ACH-001519 0 1
## ACH-001520 1 0
## ACH-001521 0 0
## ACH-001522 0 0
## ACH-001523 0 0
## ACH-001524 0 0
## ACH-001525 0 0
## ACH-001526 0 1
## ACH-001528 0 0
## ACH-001529 0 0
## ACH-001530 0 0
## ACH-001532 0 0
## ACH-001536 0 0
## ACH-001538 0 1
## ACH-001539 0 0
## ACH-001540 0 1
## ACH-001541 0 1
## ACH-001542 0 0
## ACH-001543 0 1
## ACH-001548 0 0
## ACH-001549 0 0
## ACH-001550 0 0
## ACH-001551 0 0
## ACH-001552 0 0
## ACH-001554 1 0
## ACH-001555 1 0
## ACH-001556 1 0
## ACH-001557 1 0
## ACH-001558 1 0
## ACH-001559 1 0
## ACH-001560 1 0
## ACH-001561 1 0
## ACH-001562 1 0
## ACH-001563 0 0
## ACH-001566 0 0
## ACH-001567 0 0
## ACH-001568 0 0
## ACH-001569 0 0
## ACH-001570 0 0
## ACH-001573 0 0
## ACH-001574 1 0
## ACH-001577 1 0
## ACH-001578 0 1
## ACH-001603 0 1
## ACH-001605 0 1
## ACH-001607 0 0
## ACH-001608 0 0
## ACH-001609 0 1
## ACH-001610 0 0
## ACH-001611 0 1
## ACH-001613 1 0
## ACH-001616 1 0
## ACH-001617 1 0
## ACH-001618 1 0
## ACH-001619 0 0
## ACH-001622 0 1
## ACH-001623 0 0
## ACH-001624 0 1
## ACH-001625 0 0
## ACH-001626 0 0
## ACH-001627 1 0
## ACH-001628 0 0
## ACH-001630 0 0
## ACH-001632 0 0
## ACH-001634 1 0
## ACH-001636 1 0
## ACH-001638 0 0
## ACH-001642 0 1
## ACH-001645 0 0
## ACH-001647 0 0
## ACH-001648 1 0
## ACH-001649 1 0
## ACH-001650 0 0
## ACH-001651 1 0
## ACH-001652 0 1
## ACH-001653 0 0
## ACH-001654 1 0
## ACH-001655 0 1
## ACH-001656 0 0
## ACH-001664 0 0
## ACH-001668 1 0
## ACH-001670 0 1
## ACH-001673 0 1
## ACH-001674 0 0
## ACH-001677 1 0
## ACH-001685 0 1
## ACH-001687 0 1
## ACH-001688 0 1
## ACH-001690 1 0
## ACH-001692 1 0
## ACH-001694 0 0
## ACH-001698 1 0
## ACH-001699 0 1
## ACH-001702 0 0
## ACH-001703 0 0
## ACH-001709 0 0
## ACH-001711 1 0
## ACH-001719 0 0
## ACH-001740 0 0
## ACH-001765 0 0
## ACH-001786 0 0
## ACH-001794 1 0
## ACH-001807 1 0
## ACH-001814 1 0
## ACH-001818 0 0
## ACH-001819 0 0
## ACH-001820 0 0
## ACH-001850 0 0
## ACH-001861 0 0
## ACH-001961 0 0
## ACH-001991 0 0
## ACH-002011 1 0
## ACH-002015 1 0
## ACH-002016 1 0
## ACH-002017 0 0
## ACH-002018 0 0
## ACH-002019 0 1
## ACH-002022 0 0
## ACH-002023 0 1
## ACH-002024 0 0
## ACH-002025 0 1
## ACH-002026 0 0
## ACH-002027 0 0
## ACH-002029 0 0
## ACH-002038 0 1
## ACH-002039 0 0
## ACH-002041 0 0
## ACH-002042 0 1
## ACH-002044 0 1
## ACH-002045 0 0
## ACH-002046 0 1
## ACH-002059 0 0
## ACH-002062 0 0
## ACH-002065 0 0
## ACH-002066 0 1
## ACH-002067 0 1
## ACH-002069 0 1
## ACH-002446 0 0
## ACH-002508 0 0
## ACH-002509 0 0
## ACH-002510 0 0
## ACH-002511 1 0
## attr(,"assign")
## [1] 1 1 1 1 1 1
## attr(,"contrasts")
## attr(,"contrasts")$Group
## [1] "contr.treatment"
#Make contrasts
contrast <- makeContrasts(MHvsPH = Metastasis.High-Primary.High,
MLvsPL = Metastasis.Low-Primary.Low,
MHvsML = Metastasis.High-Metastasis.Low,
PHvsPL = Primary.High-Primary.Low,
MHvsPL = Metastasis.High-Primary.Low,
PHvsML = Primary.High-Metastasis.Low,
levels=design)
keep <- filterByExpr(y, design)
y <- y[keep, , keep.lib.sizes=FALSE]
barplot(y$samples$lib.size,names=colnames(y),las=2)
# Add a title to the plot
title("Barplot of library sizes")# Calculate normalization factors for library sizes with TMM
y <- calcNormFactors(y)
#Start limma voom pipeline
par(mfrow=c(1,1))
v <- voom(y,design,plot = TRUE)#Limma - Trend
fit <- lmFit(v, design)
fit.cont <- contrasts.fit(fit, contrast)
fit.cont <- eBayes(fit.cont, trend = F, robust = F)
summa.fit <- decideTests(fit.cont)
summary(summa.fit)## MHvsPH MLvsPL MHvsML PHvsPL MHvsPL PHvsML
## Down 0 2 2 8 8 2
## NotSig 53 55 49 43 35 53
## Up 4 0 6 6 14 2
## ENSEMBL ENTREZID SYMBOL
## ENSG00000257642 ENSG00000257642 105369954 C12orf75-AS1
## ENSG00000234520 ENSG00000234520 101928036 HRAT17
## ENSG00000220891 ENSG00000220891 648691 LL22NC03-63E9.3
## ENSG00000266560 ENSG00000266560 100533997 LOC100533997
## ENSG00000267281 ENSG00000267281 114108587 ATF7-NPFF
## ENSG00000229951 ENSG00000229951 403150 FOSL2-AS1
## ENSG00000281706 ENSG00000281706 100507173 LINC01012
## ENSG00000281392 ENSG00000281392 100846978 LINC00506
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000285278 ENSG00000285278 109729173 TFAP2A-AS2
## GENENAME logFC
## ENSG00000257642 C12orf75 antisense RNA 1 -1.2242801
## ENSG00000234520 heart tissue-associated transcript 17 -1.0808095
## ENSG00000220891 uncharacterized LOC648691 1.0492382
## ENSG00000266560 MAGEA10-MAGEA5 readthrough 1.0343425
## ENSG00000267281 ATF7-NPFF readthrough -0.4784758
## ENSG00000229951 FOSL2 antisense RNA 1 -1.1985500
## ENSG00000281706 long intergenic non-protein coding RNA 1012 0.9737715
## ENSG00000281392 long intergenic non-protein coding RNA 506 -0.9429417
## ENSG00000273032 DiGeorge syndrome critical region gene 5 0.9020214
## ENSG00000285278 TFAP2A antisense RNA 2 0.6092330
## AveExpr t P.Value adj.P.Val B
## ENSG00000257642 7.525221 -4.780861 2.001047e-06 7.985195e-05 4.532734
## ENSG00000234520 7.180981 -4.711236 2.801823e-06 7.985195e-05 4.215061
## ENSG00000220891 7.607724 4.529994 6.592955e-06 9.701678e-05 3.410203
## ENSG00000266560 7.158861 4.474679 8.510243e-06 9.701678e-05 3.167225
## ENSG00000267281 13.520557 -4.502411 7.490497e-06 9.701678e-05 2.914141
## ENSG00000229951 10.366775 -4.391572 1.242358e-05 1.180240e-04 2.743047
## ENSG00000281706 11.409106 3.383994 7.414937e-04 5.283143e-03 -1.122995
## ENSG00000281392 8.649874 -3.293692 1.022691e-03 5.829339e-03 -1.269294
## ENSG00000273032 12.035308 3.347360 8.455579e-04 5.355200e-03 -1.286399
## ENSG00000285278 13.654993 3.417214 6.575554e-04 5.283143e-03 -1.299543
#Genome - Wide plots
plotMD(fit.cont,coef="MHvsPL",status=summa.fit[,"MHvsPL"], values = c(-1, 1), hl.col=c("blue","red"), main = "MHvsPL")glXYPlot(x=fit.cont$coefficients[,'MHvsPL'], y=fit.cont$lods[,'MHvsPL'],
xlab="logFC", ylab="B", main="MHvsPL",
counts=v$E, groups=Group, status=summa.fit[,'MHvsPL'],
anno=fit.cont$genes, side.main="ENSEMBL", folder="combined_volcano", html = "combined_volcano")
#Testing relative to a threshold - TREAT
fit.treat <- treat(fit.cont,lfc=log2(1.2))
res.treat <- decideTests(fit.treat)
summary(res.treat)## MHvsPH MLvsPL MHvsML PHvsPL MHvsPL PHvsML
## Down 0 0 0 3 3 0
## NotSig 57 57 56 52 52 57
## Up 0 0 1 2 2 0
## ENSEMBL ENTREZID SYMBOL
## ENSG00000257642 ENSG00000257642 105369954 C12orf75-AS1
## ENSG00000234520 ENSG00000234520 101928036 HRAT17
## ENSG00000229951 ENSG00000229951 403150 FOSL2-AS1
## ENSG00000220891 ENSG00000220891 648691 LL22NC03-63E9.3
## ENSG00000266560 ENSG00000266560 100533997 LOC100533997
## ENSG00000281706 ENSG00000281706 100507173 LINC01012
## ENSG00000276399 ENSG00000276399 284124 FLJ36000
## ENSG00000281392 ENSG00000281392 100846978 LINC00506
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000279141 ENSG00000279141 401561 LINC01451
## GENENAME logFC
## ENSG00000257642 C12orf75 antisense RNA 1 -1.2242801
## ENSG00000234520 heart tissue-associated transcript 17 -1.0808095
## ENSG00000229951 FOSL2 antisense RNA 1 -1.1985500
## ENSG00000220891 uncharacterized LOC648691 1.0492382
## ENSG00000266560 MAGEA10-MAGEA5 readthrough 1.0343425
## ENSG00000281706 long intergenic non-protein coding RNA 1012 0.9737715
## ENSG00000276399 uncharacterized FLJ36000 0.9831519
## ENSG00000281392 long intergenic non-protein coding RNA 506 -0.9429417
## ENSG00000273032 DiGeorge syndrome critical region gene 5 0.9020214
## ENSG00000279141 long intergenic non-protein coding RNA 1451 -0.9148889
## AveExpr t P.Value adj.P.Val
## ENSG00000257642 7.525221 -3.753702 0.0000920289 0.00500530
## ENSG00000234520 7.180981 -3.564672 0.0001905726 0.00500530
## ENSG00000229951 10.366775 -3.427795 0.0003164196 0.00500530
## ENSG00000220891 7.607724 3.394366 0.0003571459 0.00500530
## ENSG00000266560 7.158861 3.336763 0.0004390614 0.00500530
## ENSG00000281706 11.409106 2.469912 0.0068478680 0.05677590
## ENSG00000276399 7.597635 2.378313 0.0088082717 0.05677590
## ENSG00000281392 8.649874 -2.374914 0.0088820493 0.05677590
## ENSG00000273032 12.035308 2.371251 0.0089646151 0.05677590
## ENSG00000279141 8.354890 -2.282700 0.0113463181 0.06467401
## ENSEMBL ENTREZID SYMBOL
## ENSG00000234520 ENSG00000234520 101928036 HRAT17
## ENSG00000281392 ENSG00000281392 100846978 LINC00506
## ENSG00000245857 ENSG00000245857 100652791 GS1-24F4.2
## ENSG00000177340 ENSG00000177340 79857 FLJ13224
## ENSG00000273032 ENSG00000273032 26220 DGCR5
## ENSG00000257642 ENSG00000257642 105369954 C12orf75-AS1
## ENSG00000279141 ENSG00000279141 401561 LINC01451
## ENSG00000269226 ENSG00000269226 286527 TMSB15B
## ENSG00000266560 ENSG00000266560 100533997 LOC100533997
## ENSG00000276476 ENSG00000276476 100506622 LINC00540
## GENENAME logFC
## ENSG00000234520 heart tissue-associated transcript 17 -1.1922170
## ENSG00000281392 long intergenic non-protein coding RNA 506 -1.1931306
## ENSG00000245857 uncharacterized LOC100652791 -0.9819005
## ENSG00000177340 uncharacterized LOC79857 0.6721672
## ENSG00000273032 DiGeorge syndrome critical region gene 5 0.9894606
## ENSG00000257642 C12orf75 antisense RNA 1 -0.8663249
## ENSG00000279141 long intergenic non-protein coding RNA 1451 -0.8986908
## ENSG00000269226 thymosin beta 15B -0.9569261
## ENSG00000266560 MAGEA10-MAGEA5 readthrough 0.6511222
## ENSG00000276476 long intergenic non-protein coding RNA 540 0.8526597
## AveExpr t P.Value adj.P.Val
## ENSG00000234520 7.180981 -4.320709 8.534419e-06 0.0004864619
## ENSG00000281392 8.649874 -3.468284 2.728339e-04 0.0077757676
## ENSG00000245857 8.414062 -3.005556 1.357919e-03 0.0249947929
## ENSG00000177340 9.748777 2.886299 1.989981e-03 0.0249947929
## ENSG00000273032 12.035308 2.855479 2.192526e-03 0.0249947929
## ENSG00000257642 7.525221 -2.501638 6.260254e-03 0.0594724083
## ENSG00000279141 8.354890 -2.376543 8.837165e-03 0.0719597696
## ENSG00000269226 12.143016 -2.218034 1.343706e-02 0.0957390425
## ENSG00000266560 7.158861 1.804739 3.571637e-02 0.2262036806
## ENSG00000276476 8.507348 1.690495 4.633018e-02 0.2640820156
#MHvsPL
plotMD(fit.treat,coef="MHvsPL",status=res.treat[,"MHvsPL"], values = c(-1, 1), hl.col=c("blue","red"), main = "MHvsPL (TREAT)")glMDPlot(fit.treat, coef="MHvsPL", counts=v$E, groups=Group,
status=res.treat, side.main="ENSEMBL", main="MHvsPL",
folder="combined_md", html = "combined_md")
#PHvsPL
plotMD(fit.treat,coef="PHvsPL",status=res.treat[,"PHvsPL"], values = c(-1, 1), hl.col=c("blue","red"), main = "PHvsPL (TREAT)")#GO enrichment using goana on Treat results
go <- goana(fit.treat, coef="MHvsPL", geneid = fit.treat$genes$ENTREZID, species = "Hs")
topGO(go, n=10)## Term Ont N Up Down
## GO:0065007 biological regulation BP 6 2 0
## GO:0050789 regulation of biological process BP 6 2 0
## GO:0050794 regulation of cellular process BP 6 2 0
## GO:0009987 cellular process BP 8 2 0
## GO:0008150 biological_process BP 9 2 0
## GO:0007049 cell cycle BP 1 1 0
## GO:0022402 cell cycle process BP 1 1 0
## GO:0007059 chromosome segregation BP 1 1 0
## GO:0035195 miRNA-mediated post-transcriptional gene silencing BP 1 1 0
## GO:0010629 negative regulation of gene expression BP 1 1 0
## P.Up P.Down
## GO:0065007 0.009398496 1
## GO:0050789 0.009398496 1
## GO:0050794 0.009398496 1
## GO:0009987 0.017543860 1
## GO:0008150 0.022556391 1
## GO:0007049 0.035087719 1
## GO:0022402 0.035087719 1
## GO:0007059 0.035087719 1
## GO:0035195 0.035087719 1
## GO:0010629 0.035087719 1
go_2 <- goana(fit.treat, coef="PHvsPL", geneid = fit.treat$genes$ENTREZID, species = "Hs")
topGO(go_2, n=10)## Term Ont N Up
## GO:0120259 7SK snRNP CC 1 0
## GO:0003779 actin binding MF 1 0
## GO:0030036 actin cytoskeleton organization BP 1 0
## GO:0007015 actin filament organization BP 1 0
## GO:0030029 actin filament-based process BP 1 0
## GO:0003785 actin monomer binding MF 1 0
## GO:0002253 activation of immune response BP 1 0
## GO:0002218 activation of innate immune response BP 1 0
## GO:0048856 anatomical structure development BP 1 0
## GO:0048646 anatomical structure formation involved in morphogenesis BP 1 0
## Down P.Up P.Down
## GO:0120259 0 1 1
## GO:0003779 0 1 1
## GO:0030036 0 1 1
## GO:0007015 0 1 1
## GO:0030029 0 1 1
## GO:0003785 0 1 1
## GO:0002253 0 1 1
## GO:0002218 0 1 1
## GO:0048856 0 1 1
## GO:0048646 0 1 1
Para esta análise foram definidos como contrastes MHvsPH (Metastasis.High-Primary.High), MLvsPL (Metastasis.Low-Primary.Low), MHvsML(Metastasis.High-Metastasis.Low), PHvsPL (Primary.High-Primary.Low), MHvsPL (Metastasis.High-Primary.Low) e PHvsML (Primary.High-Metastasis.Low). Da filtragem efetuada, permaneceram na análise \(20307\) linhagens das \(30639\) iniciais. A análise do gráfico de barras permite inferir que existem linhagens celulares com library sizes bastante superiores à média. O output gráfico do limma voom demonstra que ocorre uma dispersão dos pontos principalmente para valores de \(log2 < 10\).
Da análise de expressão diferencial resulta que, numa fase inicial e para o contraste MHvsPH existem \(374\) genes subexpressos e \(842\) sobrexpressos, para o contraste MLvsPL existem \(272\) genes subexpressos e \(331\) sobrexpressos, para o contraste MHvsML existem \(1038\) genes subexpressos e \(1200\) sobrexpressos, para o contraste PHvsPL existem \(2708\) genes subexpressos e \(2973\) sobrexpressos, para o contraste MHvsPL existem \(2909\) genes subexpressos e \(3952\) sobrexpressos e para o contraste PHvsML existem \(1439\) genes subexpressos e \(1059\) sobrexpressos. Isto pode ser analisado graficamente ao recurso ao MD plot e ao volcano plot para o constraste MHvsPL, que foi selecionado para os gráficos por ser aquele com mais genes diferencialmente expressos.
Após a análise TREAT (Testing relative to a threshold) verificou-se que restaram para o contraste MHvsPH \(9\) genes subexpressos e \(68\) sobrexpressos, para o contraste MLvsPL restaram \(13\) genes subexpressos e \(21\) sobrexpressos, para o contraste MHvsML restaram \(87\) genes subexpressos e \(122\) sobrexpressos, para o contraste PHvsPL restaram \(759\) genes subexpressos e \(608\) sobrexpressos, para o contraste MHvsPL restaram \(784\) genes subexpressos e \(1175\) sobrexpressos e para o contraste PHvsML restaram \(210\) genes subexpressos e \(67\) sobrexpressos. Pode ser realizada uma análise gráfica com os gráficos já referidos para o contrate MHvsPL, que é aquele com mais genes diferencialmente expressos. 3
Por último, a análise sobre as ontologias genéticas para o contrastes MHvsPL e PHvsPL permitiu inferir, para o primeiro, que se encontram maioriatariamente subexpressos genes associados a processos biológicos relacionados com a resposta imune, resposta a estímulos externos e resposta a citocinas. Estes são resultados ligeiramente diferentes aqueles que surgiram no contraste MvsP, com um maior ênfase para a resposta imune e com a adição da subexpressão da resposta às citocinas. Isto irá permitir um aumento da proliferação celular, favorecendo o processo de carcinogénese.
Já quanto ao segundo constraste observamos o mesmo padrão que no contraste HvsL anteriormente explorado, com uma subexpressão de genes associados à matriz extracelular, migração celular e locomoção celular. Isto leva a crer que com o acumular de mutações em tumores primários ocorre uma supressão destas vias o que não é expectável dado que esta acumulação de mutações esperar-se-ia direcionar o tumor no sentido da metastização. Contudo, também se verifica que a subexpressão de genes associados à matriz extracelular pode favorecer a neoplasia, o que pode explicar estes resultados.
##New exp matrix based on MH and PL lineages
comb_exp = as.data.frame(cbind(Group, t(exp_matrix)))
select = c("4", "5")
comb_exp$Group = as.factor(comb_exp$Group)
comb_exp = comb_exp[comb_exp$Group %in% select, ]
comb_exp$Group = as.factor(comb_exp$Group)
comb_exp$Group <- factor(comb_exp$Group, labels = c("Primary.High", "Primary.Low"))
groups_combine <- comb_exp$Group
#Get differentially expressed genes for the contrast PHvsPL
genes_diff = topTreat(fit.treat, coef="PHvsPL", number=100)
#Filter the expression matrix to consider these genes
indexes = which(names(comb_exp)%in%rownames(genes_diff))
exp_mut = comb_exp[,indexes]
logcounts_genes <- cpm(t(exp_mut), log=TRUE)Dos genes diferencialmente expressos para o contraste PHvsPL foram selecionados \(100\) para prosseguirem para análise multivariada. Isto deveu-se ao facto de considerar-mos mais interessante conseguir, dentro dos tumores primários, averiguar se o número de mutações tinha um efeito claro na separação das linhagens e se era possível construir um modelo para realizar esta classificação.
Das \(1020\) linhagens originais foram selecionadas as \(403\) que se encontravam classificadas como “Primary.High” e “Primary.Low”, e foi construída uma nova matriz de expressão contendo os genes e variáveis selecionadas, denominado-se “exp_mut”. Após a construção deste dataframe, este foi normalizado em contagens por milhão e logaritmizado (“logcounts_genes”).
Foi construído um heatmap através do clustering hierárquico dos genes e das amostras do dataframe “logcounts_genes”, sendo a matriz de distâncias calculada com base em distâncias euclideanas e o algoritmo de clustering usado ter sido complete linkage. As linhagens (colunas do heatmap) foram também assinalas a vermelho caso fossem linhagens primárias com um alto número de mutações ou a azul caso fossem linhagens primárias com um baixo número de mutações.
#selecionar cores
mypalette <- brewer.pal(11,"RdYlBu")
morecols <- colorRampPalette(mypalette)
col.cell <- c("darkslategray1", "coral")[groups_combine]
heatmap.2(logcounts_genes,col=rev(morecols(50)), trace="none", main="100 diferentially expressed genes PHvsPL", ColSideColors = col.cell, scale="row")
legend(-0.1, -0.125, legend=levels(groups_combine), fill=c("darkslategray1", "coral"), xpd = T)É possível observar que existem clusters de linhagens em que certos grupos de genes são expressos de forma semelhante, e que existem diferenças na expressão genética entre grupos de linhagens. Por exemplo, é possível que em grupos em que predominam linhagens classificadas como “Primary.High” ocorra um padrão de expressão oposto aos grupos onde predominam linhagens classificadas como “Primary.Low”. Quando não é possível observar a predominancia de uma das duas classes nos clusters de linhagens, torna-se mais difícil de observar esta expressão diferencial.
res.pca<-PCA(t(logcounts_genes), scale.unit = F, graph = F)
eig.val <- get_eigenvalue(res.pca)
eig.val## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 15.1195795 10.9341287 10.93413
## Dim.2 11.5835012 8.3769190 19.31105
## Dim.3 9.6906659 7.0080645 26.31911
## Dim.4 7.1590222 5.1772386 31.49635
## Dim.5 6.2540498 4.5227836 36.01913
## Dim.6 5.7264489 4.1412349 40.16037
## Dim.7 4.7882774 3.4627710 43.62314
## Dim.8 4.6841685 3.3874818 47.01062
## Dim.9 4.5035581 3.2568686 50.26749
## Dim.10 3.9705530 2.8714117 53.13890
## Dim.11 3.4950196 2.5275170 55.66642
## Dim.12 3.3146258 2.3970604 58.06348
## Dim.13 3.1903001 2.3071509 60.37063
## Dim.14 2.8050157 2.0285222 62.39915
## Dim.15 2.7239272 1.9698809 64.36903
## Dim.16 2.6773823 1.9362207 66.30525
## Dim.17 2.4797111 1.7932695 68.09852
## Dim.18 2.3092498 1.6699958 69.76852
## Dim.19 2.1974224 1.5891249 71.35764
## Dim.20 2.1063236 1.5232443 72.88089
## Dim.21 2.0182518 1.4595529 74.34044
## Dim.22 1.9541761 1.4132148 75.75366
## Dim.23 1.8279062 1.3218993 77.07556
## Dim.24 1.7496503 1.2653065 78.34086
## Dim.25 1.6273606 1.1768694 79.51773
## Dim.26 1.5902517 1.1500331 80.66776
## Dim.27 1.5368737 1.1114313 81.77920
## Dim.28 1.5123577 1.0937019 82.87290
## Dim.29 1.4549549 1.0521896 83.92509
## Dim.30 1.3965031 1.0099186 84.93501
## Dim.31 1.3441416 0.9720520 85.90706
## Dim.32 1.3040689 0.9430724 86.85013
## Dim.33 1.2782098 0.9243716 87.77450
## Dim.34 1.2116567 0.8762420 88.65074
## Dim.35 1.1352233 0.8209671 89.47171
## Dim.36 1.1075476 0.8009527 90.27266
## Dim.37 1.0329991 0.7470410 91.01971
## Dim.38 0.9744886 0.7047275 91.72443
## Dim.39 0.9486804 0.6860636 92.41050
## Dim.40 0.9161922 0.6625689 93.07307
## Dim.41 0.8566302 0.6194951 93.69256
## Dim.42 0.8277601 0.5986168 94.29118
## Dim.43 0.8070242 0.5836211 94.87480
## Dim.44 0.7943510 0.5744562 95.44925
## Dim.45 0.7638798 0.5524201 96.00167
## Dim.46 0.6829978 0.4939282 96.49560
## Dim.47 0.6584650 0.4761866 96.97179
## Dim.48 0.5848288 0.4229346 97.39472
## Dim.49 0.5494260 0.3973321 97.79206
## Dim.50 0.4955726 0.3583866 98.15044
## Dim.51 0.4773175 0.3451850 98.49563
## Dim.52 0.4544094 0.3286183 98.82425
## Dim.53 0.4114141 0.2975251 99.12177
## Dim.54 0.3406562 0.2463547 99.36813
## Dim.55 0.3120030 0.2256333 99.59376
## Dim.56 0.2996559 0.2167042 99.81046
## Dim.57 0.2620893 0.1895369 100.00000
#Number of dimensions until we reach 90% cumulative variance
i = 1
while ( eig.val[i,3] < 90 ) i = i + 1
i## [1] 36
fviz_famd_ind(res.pca, geom = c("point"), col.ind = "cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
palette = "rainbow", addEllipses = FALSE, ellipse.type = "confidence",
ggtheme = theme_minimal(), repel = TRUE, labels = F) fviz_famd_ind(res.pca, geom = c("point"),
habillage = groups_combine, # color by groups
palette = c("rainbow"),
addEllipses = FALSE, ellipse.type = "confidence",
repel = TRUE, labels = FALSE )Foi realizada também uma análise de componentes principais (PCA) sobre estes dados de forma a visualizar os dados e efetuar uma redução de dimensionalidade. Os dados já se encontravam normalizados, e do PCA temos que a 1ª dimensão agrega \(23\%\) da variabilidade da amostra, a 2ª dimensão \(9.7\%\) e a 3ª dimensão \(6.6\%\), perfazendo um total de cerca de \(40\%\) de variabilidade cumulativa. Para perfazer mais de \(90\%\) da variabilidade total do dataset, seria necessário acumular \(49\) componentes.
Ao observar as linhagens representadas graficamente ao longo dos 1º e 2º componentes, temos que ao colorir as linhagens pela sua qualidade de representação “cos2” que as linhagens mais próximas do 0 são aquelas cuja variação se encontra menos explicada pelos dois componenetes representados, enquanto que aquelas mais distantes ao longo do 1º e 2º eixo são aquelas que se encontram melhor diferenciadas.
Quando colorimos as linhagens pela sua classificação como “Primary.High” ou “Primary.Low”, podemos observar que ocorre uma tendência de agrupamento das linhagens da classe Primary.High ao longo do eixo negativo do 1º componente e da classe Primary.Low ao longo do eixo positivo do 1º componente. Isto é facilmente observável atendendo ao centro dos grupos formados (bolas grandes). Contudo não existe uma separação óbvia entre as linhagens de uma classe ou outra.
kmm_genes <- kmeans(t(logcounts_genes), 2)
col.cell <- c( "coral","darkslategray1")[groups_combine]
col.cell_Kmm <- c("darkslategray1", "coral")[kmm_genes$cluster]
plot(res.pca$ind$coord[, 1], res.pca$ind$coord[, 2], col = col.cell_Kmm, pch = 16, xlab = "PC1", ylab = "PC2", main ="Map of predicted clusters")
legend(27, -25, legend=c("1", "2"),fill=c( "darkslategray1", "coral"), xpd = T)plot(res.pca$ind$coord[, 1], res.pca$ind$coord[, 2], col = col.cell, pch = 16, xlab = "PC1", ylab = "PC2", main ="Map of observed data")
legend(17, -25, legend=levels(groups_combine),fill=c( "coral","darkslategray1"), xpd = T)Para efetuar o clustering por k-means, de forma a efetuar uma classificação dos grupos observados no PCA, foi primeiro realizada uma siluette analysis sobre os dados logaritmizados com recurso a função fviz_nbclust, que nos indicou que a solução ótima residia em \(2\) clusters. De seguida foi efetuado o clustering com \(2\) clusters de input, o que resultou na previsão de \(2\) grupos de linhagens. Quando comparamos com os dados observados verificamos que ocorre uma dispersão muito superior dos dados, com as linhagens do tipo “Primary.Low” mais dispersas que aquelas do tipo “Primary.High”.
Mediante os resultados antes obtidos, propusemo-nos a construir um modelo de machine learning para efetuar a previsão da presença de um número baixo (“Low”) ou elevado de mutações (“High”) em linhagens cancerígenas pertencentes a tumores primários(“Primary”). Foram usados \(100\) genes preditores provenientes da expressão diferencial, juntamente com \(403\) linhagens cancerígenas primárias.
Para tal foram testadas 5 frameworks: “Neural Networks”, “Random Forest”, “Decision Trees”, “K Nearest Neighbors” e “Naïve Bayes”.
Em todos os modelos foi utilizada uma estimação do erro corresponde a validação cruzada com 10 folds repetida 5 vezes, aquando da sua construção. De forma a tornar estes resultados replicáveis, foi invocada uma seed de valor “16718”.
#seed para ser sempre igual
set.seed(16718)
#repeated cross validation
cv.control = trainControl('repeatedcv', number = 10, repeats = 5)
#dataframe ML
ml_phpl <- as.data.frame(cbind(group = groups_combine, t(logcounts_genes)))
ml_phpl$group = as.factor(ml_phpl$group)#Neural Networks -- Classification, Regression
set.seed(16718)
phpl_nnet_cv = train(group~., data = ml_phpl, method = "nnet", tuneLenght=10, trControl=cv.control)## Neural Network
##
## 403 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 363, 363, 362, 363, 363, 362, ...
## Resampling results across tuning parameters:
##
## size decay Accuracy Kappa
## 1 0e+00 0.6238671 0.05152023
## 1 1e-04 0.6193311 0.04010610
## 1 1e-01 0.6970460 0.36823211
## 3 0e+00 0.6432630 0.14768048
## 3 1e-04 0.6510922 0.16456828
## 3 1e-01 0.7020400 0.37158711
## 5 0e+00 0.6400391 0.15252558
## 5 1e-04 0.6554018 0.23529772
## 5 1e-01 0.6872936 0.34788347
##
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were size = 3 and decay = 0.1.
Na construção do modelo por “Neural Networks” foi dado o argumento “tuneLenght = 10”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “size” 5 (número de unidades na camada intermédia) e a um “decay” (regularização para evitar sobreajustamento) de 0, possuindo o modelo uma precisão de aproximadamente \(0.76\).
#Random Forest -- Classification, Regression
set.seed(16718)
phpl_rf_cv = train(group~., data = ml_phpl, method = "rf", tuneLenght=10, trControl=cv.control)
phpl_rf_cv## Random Forest
##
## 403 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 363, 363, 362, 363, 363, 362, ...
## Resampling results across tuning parameters:
##
## mtry Accuracy Kappa
## 2 0.7060503 0.3049331
## 29 0.6966851 0.3168291
## 57 0.7060657 0.3430242
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 57.
Na construção do modelo por “Random Forest” foi dado o argumento “tuneLenght = 10”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “mtry” de 2 (número de variáveis randomizadamente amostradas como candidatas a cada ramificação), possuindo o modelo uma precisão de aproximadamente \(0.78\).
#Decision Trees -- Classification, Regression
set.seed(16718)
phpl_tree_cv = train(group~., data = ml_phpl, method = "rpart", tuneGrid=expand.grid(.cp=0.2), trControl=cv.control)
phpl_tree_cv## CART
##
## 403 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 363, 363, 362, 363, 363, 362, ...
## Resampling results:
##
## Accuracy Kappa
## 0.6129409 0
##
## Tuning parameter 'cp' was held constant at a value of 0.2
Na construção do modelo por “Decision Trees” foi dado o argumento “expand.grid = (.cp=0.2)”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “cp” a um valor constante de 0.2 (complexidade do parâmetro e dos valores de erro associados), possuindo o modelo uma precisão de aproximadamente \(0.70\).
#KNN -- Classification, Regression
set.seed(16718)
phpl_knn_cv = train(group~., data = ml_phpl, method = "knn", tuneGrid = expand.grid(k = 1:10), trControl=cv.control)
phpl_knn_cv## k-Nearest Neighbors
##
## 403 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 363, 363, 362, 363, 363, 362, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 1 0.7005088 0.3815494
## 2 0.6847276 0.3490231
## 3 0.7155150 0.4042120
## 4 0.7062230 0.3859811
## 5 0.7258064 0.4143340
## 6 0.7226814 0.4105020
## 7 0.7257308 0.4126577
## 8 0.7272308 0.4146385
## 9 0.7242827 0.4088520
## 10 0.7172692 0.3947059
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 8.
Na construção do modelo por “k Nearest Neighbours” foi dado o argumento “tuneLenght = expand.grid = (1:10)”, ou seja o número de vizinhos a ser implementados pelo algoritmo.
Obtivemos que os parâmetros selecionados correspondem a um “k” de 8 (número de vizinhos), possuindo o modelo uma precisão de aproximadamente \(0.74\).
#Naive Bayes -- Classification
set.seed(16718)
phpl_nb_cv = train(group~., data = ml_phpl, method = "nb", trControl=cv.control)
phpl_nb_cv## Naive Bayes
##
## 403 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 363, 363, 362, 363, 363, 362, ...
## Resampling results across tuning parameters:
##
## usekernel Accuracy Kappa
## FALSE 0.6918180 0.3499283
## TRUE 0.6239018 0.2197566
##
## Tuning parameter 'fL' was held constant at a value of 0
## Tuning
## parameter 'adjust' was held constant at a value of 1
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were fL = 0, usekernel = FALSE and adjust
## = 1.
Na construção do modelo por “Naïve Bayes” foi dado o argumento “tuneLenght = 10”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “fL” de 0 (incorporação da suavização de Laplace), a ausência do uso de um “kernel” (uso de uma kernel density estimate) e um “adjust = 1” (ajuste da largura de banda da da kernel density), possuindo o modelo uma precisão de aproximadamente \(0.76\).
Após observação da precisão dos 5 modelos para a classificação das linhagens cancerígenas primárias, selecionou-se o modelo obtido a partir do algoritmo de “Random Forest” como aquele com maior precisão entre os restantes, tomando esta o valor de \(78\%\).
Este valor é subótimo para a performance de um algoritmo de machine learning, contudo, pode ser melhorado com a adição de mais entradas de dados, ou com enriquecimento de genes ou de outras variáveis que permitam melhor classificar estas classes.
#Importância de variáveis
control <- rfeControl(functions=rfFuncs, method="cv", number=10)
results <- rfe(group~., data = ml_phpl, rfeControl=control, sizes=c(1:10,20,40,60,80,100))
results##
## Recursive feature selection
##
## Outer resampling method: Cross-Validated (10 fold)
##
## Resampling performance over subset size:
##
## Variables Accuracy Kappa AccuracySD KappaSD Selected
## 1 0.6153 0.10618 0.04590 0.13036
## 2 0.5832 0.05419 0.08390 0.18569
## 3 0.6299 0.16328 0.06094 0.14473
## 4 0.6303 0.18161 0.05161 0.10663
## 5 0.6401 0.20164 0.04013 0.09528
## 6 0.6523 0.22865 0.04784 0.13010
## 7 0.6597 0.24212 0.06080 0.13268
## 8 0.6748 0.28107 0.04330 0.09472
## 9 0.6651 0.25893 0.03779 0.08398
## 10 0.6773 0.28430 0.05757 0.12546
## 20 0.7116 0.34771 0.05615 0.13061
## 40 0.7169 0.35370 0.04366 0.10945
## 57 0.7195 0.35230 0.01823 0.06475 *
##
## The top 5 variables (out of 57):
## ENSG00000234520, ENSG00000245857, ENSG00000266560, ENSG00000177340, ENSG00000273032
important_genes <- predictors(results)
ann_imp <- select(org.Hs.eg.db,keys=important_genes, keytype='ENSEMBL', columns=c('ENTREZID', "ENSEMBL", "SYMBOL", "GENENAME"))## 'select()' returned 1:many mapping between keys and columns
## ENSEMBL ENTREZID SYMBOL
## 1 ENSG00000234520 101928036 HRAT17
## 2 ENSG00000245857 100652791 GS1-24F4.2
## 3 ENSG00000266560 100533997 LOC100533997
## 4 ENSG00000177340 79857 FLJ13224
## 5 ENSG00000273032 26220 DGCR5
## 6 ENSG00000281392 100846978 LINC00506
## 7 ENSG00000267281 114108587 ATF7-NPFF
## 8 ENSG00000279141 401561 LINC01451
## 9 ENSG00000257642 105369954 C12orf75-AS1
## 10 ENSG00000276476 100506622 LINC00540
## 11 ENSG00000281706 100507173 LINC01012
## 12 ENSG00000229951 403150 FOSL2-AS1
## 13 ENSG00000269226 286527 TMSB15B
## 14 ENSG00000269226 122394733 TMSB15C
## 15 ENSG00000283117 79150 MGC4859
## 16 ENSG00000283117 124901588 LOC124901588
## 17 ENSG00000248599 441374 SLEAR
## 18 ENSG00000285278 109729173 TFAP2A-AS2
## 19 ENSG00000253641 101929191 LINC03022
## 20 ENSG00000196696 283970 PDXDC2P-NPIPB14P
## 21 ENSG00000277925 7012 TERC
## 22 ENSG00000179743 729614 SPEN-AS1
## 23 ENSG00000232995 127814295 LOC127814295
## 24 ENSG00000267313 641516 KC6
## 25 ENSG00000232850 389791 PTGES2-AS1
## 26 ENSG00000268592 100652739 RAET1E-AS1
## 27 ENSG00000220891 648691 LL22NC03-63E9.3
## 28 ENSG00000202198 125050 RN7SK
## 29 ENSG00000279636 55451 LINC00216
## 30 ENSG00000254531 90024 PPP3CA-DT
## 31 ENSG00000272142 100129461 LYRM4-AS1
## 32 ENSG00000280987 9782 MATR3
## 33 ENSG00000257520 253970 SFTA3
## 34 ENSG00000241111 100652759 PRICKLE2-AS1
## 35 ENSG00000257069 106780802 KCNK4-CATSPERZ
## 36 ENSG00000275620 100192386 FLJ16779
## 37 ENSG00000242288 113939925 BMS1P4-AGAP5
## 38 ENSG00000271816 729096 BMS1P4
## 39 ENSG00000279943 651430 FLJ38576
## 40 ENSG00000262075 26102 DKFZP434A062
## 41 ENSG00000185332 284186 TMEM105
## 42 ENSG00000188242 25845 SLC9A3-OT1
## 43 ENSG00000197180 158960 ATP6AP1-DT
## 44 ENSG00000285793 285074 ANAPC1P2
## 45 ENSG00000276399 284124 FLJ36000
## 46 ENSG00000281831 352990 HCP5B
## 47 ENSG00000237310 100289098 LINC03011
## 48 ENSG00000243902 114794 ELFN2
## 49 ENSG00000223855 441307 PDGFA-DT
## 50 ENSG00000277739 109910384 RNA5-8SP10
## 51 ENSG00000277739 124907114 LOC124907114
## 52 ENSG00000277739 124907115 LOC124907115
## 53 ENSG00000277739 124907116 LOC124907116
## 54 ENSG00000277739 124907117 LOC124907117
## 55 ENSG00000277739 124907118 LOC124907118
## 56 ENSG00000277739 124907119 LOC124907119
## 57 ENSG00000277739 124907120 LOC124907120
## 58 ENSG00000277739 124907121 LOC124907121
## 59 ENSG00000277739 124907122 LOC124907122
## 60 ENSG00000277739 124907123 LOC124907123
## 61 ENSG00000277739 124907124 LOC124907124
## 62 ENSG00000277739 124907125 LOC124907125
## 63 ENSG00000277739 124907126 LOC124907126
## 64 ENSG00000277739 124907127 LOC124907127
## 65 ENSG00000277739 124907128 LOC124907128
## 66 ENSG00000277739 124907129 LOC124907129
## 67 ENSG00000277739 124907130 LOC124907130
## 68 ENSG00000277739 124907131 LOC124907131
## 69 ENSG00000277739 124907132 LOC124907132
## 70 ENSG00000277739 124907133 LOC124907133
## 71 ENSG00000277739 124907134 LOC124907134
## 72 ENSG00000277739 124907135 LOC124907135
## 73 ENSG00000277739 124907136 LOC124907136
## 74 ENSG00000277739 124907137 LOC124907137
## 75 ENSG00000277739 124907138 LOC124907138
## 76 ENSG00000277739 124907139 LOC124907139
## 77 ENSG00000277739 124907140 LOC124907140
## 78 ENSG00000277739 124907141 LOC124907141
## 79 ENSG00000277739 124907142 LOC124907142
## 80 ENSG00000277739 124907143 LOC124907143
## 81 ENSG00000277739 124907144 LOC124907144
## 82 ENSG00000277739 124907145 LOC124907145
## 83 ENSG00000277739 124907146 LOC124907146
## 84 ENSG00000277739 124907147 LOC124907147
## 85 ENSG00000277739 124907148 LOC124907148
## 86 ENSG00000277739 124907149 LOC124907149
## 87 ENSG00000277739 124907150 LOC124907150
## 88 ENSG00000277739 124907151 LOC124907151
## 89 ENSG00000277739 124907152 LOC124907152
## 90 ENSG00000277739 124907153 LOC124907153
## 91 ENSG00000277739 124907154 LOC124907154
## 92 ENSG00000277739 124907155 LOC124907155
## 93 ENSG00000277739 124907160 LOC124907160
## 94 ENSG00000277739 124907172 LOC124907172
## 95 ENSG00000277739 124907183 LOC124907183
## 96 ENSG00000277739 124907194 LOC124907194
## 97 ENSG00000277739 124907205 LOC124907205
## 98 ENSG00000277739 124907216 LOC124907216
## 99 ENSG00000277739 124907227 LOC124907227
## 100 ENSG00000277739 124907238 LOC124907238
## 101 ENSG00000277739 124907248 LOC124907248
## 102 ENSG00000277739 124907258 LOC124907258
## 103 ENSG00000277739 124907269 LOC124907269
## 104 ENSG00000277739 124907280 LOC124907280
## 105 ENSG00000277739 124907291 LOC124907291
## 106 ENSG00000277739 124907302 LOC124907302
## 107 ENSG00000277739 124907313 LOC124907313
## 108 ENSG00000277739 124907324 LOC124907324
## 109 ENSG00000277739 124907327 LOC124907327
## 110 ENSG00000277739 124907328 LOC124907328
## 111 ENSG00000277739 124907329 LOC124907329
## 112 ENSG00000277739 124907330 LOC124907330
## 113 ENSG00000277739 124907331 LOC124907331
## 114 ENSG00000277739 124907332 LOC124907332
## 115 ENSG00000277739 124907333 LOC124907333
## 116 ENSG00000277739 124907334 LOC124907334
## 117 ENSG00000277739 124907335 LOC124907335
## 118 ENSG00000277739 124907336 LOC124907336
## 119 ENSG00000277739 124907337 LOC124907337
## 120 ENSG00000277739 124907338 LOC124907338
## 121 ENSG00000277739 124907339 LOC124907339
## 122 ENSG00000277739 124907340 LOC124907340
## 123 ENSG00000277739 124907341 LOC124907341
## 124 ENSG00000277739 124907342 LOC124907342
## 125 ENSG00000277739 124907343 LOC124907343
## 126 ENSG00000277739 124907439 LOC124907439
## 127 ENSG00000277739 124907440 LOC124907440
## 128 ENSG00000277739 124907450 LOC124907450
## 129 ENSG00000277739 124907458 LOC124907458
## 130 ENSG00000277739 124907467 LOC124907467
## 131 ENSG00000277739 124907475 LOC124907475
## 132 ENSG00000277739 124907476 LOC124907476
## 133 ENSG00000277739 124907477 LOC124907477
## 134 ENSG00000277739 124907478 LOC124907478
## 135 ENSG00000277739 124907479 LOC124907479
## 136 ENSG00000277739 124907480 LOC124907480
## 137 ENSG00000277739 124907481 LOC124907481
## 138 ENSG00000277739 124907482 LOC124907482
## 139 ENSG00000277739 124907483 LOC124907483
## 140 ENSG00000277739 124907484 LOC124907484
## 141 ENSG00000277739 124907572 LOC124907572
## 142 ENSG00000277739 124907573 LOC124907573
## 143 ENSG00000277739 124907574 LOC124907574
## 144 ENSG00000277739 124907575 LOC124907575
## 145 ENSG00000277739 124907576 LOC124907576
## 146 ENSG00000277739 124907577 LOC124907577
## 147 ENSG00000277739 124907578 LOC124907578
## 148 ENSG00000277739 124907579 LOC124907579
## 149 ENSG00000277739 124907580 LOC124907580
## 150 ENSG00000277739 124907581 LOC124907581
## 151 ENSG00000277739 124907584 LOC124907584
## 152 ENSG00000277739 124907585 LOC124907585
## 153 ENSG00000277739 124907586 LOC124907586
## 154 ENSG00000277739 124907587 LOC124907587
## 155 ENSG00000277739 124907588 LOC124907588
## 156 ENSG00000277739 124907589 LOC124907589
## 157 ENSG00000277739 124907590 LOC124907590
## 158 ENSG00000277739 124907591 LOC124907591
## 159 ENSG00000277739 124907592 LOC124907592
## 160 ENSG00000277739 124907593 LOC124907593
## 161 ENSG00000277739 124907594 LOC124907594
## 162 ENSG00000277739 124907595 LOC124907595
## 163 ENSG00000277739 124907596 LOC124907596
## 164 ENSG00000277739 124907597 LOC124907597
## 165 ENSG00000277739 124907598 LOC124907598
## 166 ENSG00000277739 124907600 LOC124907600
## 167 ENSG00000277739 124907611 LOC124907611
## 168 ENSG00000277739 124907622 LOC124907622
## 169 ENSG00000277739 124907633 LOC124907633
## 170 ENSG00000277739 124907644 LOC124907644
## 171 ENSG00000277739 124907655 LOC124907655
## 172 ENSG00000277739 124907662 LOC124907662
## 173 ENSG00000277739 124907673 LOC124907673
## 174 ENSG00000277739 124907684 LOC124907684
## 175 ENSG00000277739 124907694 LOC124907694
## 176 ENSG00000277739 124907705 LOC124907705
## 177 ENSG00000277739 124907709 LOC124907709
## 178 ENSG00000277739 124907710 LOC124907710
## 179 ENSG00000277739 124907711 LOC124907711
## 180 ENSG00000277739 124907712 LOC124907712
## 181 ENSG00000277739 124907713 LOC124907713
## 182 ENSG00000277739 124907714 LOC124907714
## 183 ENSG00000277739 124907715 LOC124907715
## 184 ENSG00000277739 124907716 LOC124907716
## 185 ENSG00000277739 124907717 LOC124907717
## 186 ENSG00000277739 124907718 LOC124907718
## 187 ENSG00000277739 124907719 LOC124907719
## 188 ENSG00000277739 124907720 LOC124907720
## 189 ENSG00000277739 124907721 LOC124907721
## 190 ENSG00000277739 124908237 LOC124908237
## 191 ENSG00000277739 124908238 LOC124908238
## 192 ENSG00000277739 124908239 LOC124908239
## 193 ENSG00000277739 124908240 LOC124908240
## 194 ENSG00000277739 124908241 LOC124908241
## 195 ENSG00000277739 124908242 LOC124908242
## 196 ENSG00000277739 124908243 LOC124908243
## 197 ENSG00000277739 124908244 LOC124908244
## 198 ENSG00000277739 124908245 LOC124908245
## 199 ENSG00000277739 124908246 LOC124908246
## 200 ENSG00000277739 124908247 LOC124908247
## 201 ENSG00000277739 124908248 LOC124908248
## 202 ENSG00000277739 124908249 LOC124908249
## 203 ENSG00000277739 124908257 LOC124908257
## 204 ENSG00000277739 124908268 LOC124908268
## 205 ENSG00000277739 124908278 LOC124908278
## 206 ENSG00000277739 124908289 LOC124908289
## 207 ENSG00000277739 124908300 LOC124908300
## 208 ENSG00000277739 124908310 LOC124908310
## 209 ENSG00000277739 124908316 LOC124908316
## 210 ENSG00000277739 124908327 LOC124908327
## 211 ENSG00000277739 124908336 LOC124908336
## 212 ENSG00000277739 124908347 LOC124908347
## 213 ENSG00000277739 124908358 LOC124908358
## 214 ENSG00000277739 124908368 LOC124908368
## 215 ENSG00000277739 124908369 LOC124908369
## 216 ENSG00000277739 124908370 LOC124908370
## 217 ENSG00000277739 124908371 LOC124908371
## 218 ENSG00000277739 124908372 LOC124908372
## 219 ENSG00000277739 124908373 LOC124908373
## 220 ENSG00000277739 124908374 LOC124908374
## 221 ENSG00000277739 124908375 LOC124908375
## 222 ENSG00000277739 124908376 LOC124908376
## 223 ENSG00000277739 124908377 LOC124908377
## 224 ENSG00000277739 124908378 LOC124908378
## 225 ENSG00000277739 124908379 LOC124908379
## 226 ENSG00000277739 124908380 LOC124908380
## 227 ENSG00000277739 124908381 LOC124908381
## 228 ENSG00000277739 124908382 LOC124908382
## 229 ENSG00000277739 124908383 LOC124908383
## 230 ENSG00000277739 124908384 LOC124908384
## 231 ENSG00000277739 124908385 LOC124908385
## 232 ENSG00000277739 124908386 LOC124908386
## 233 ENSG00000277739 124908387 LOC124908387
## 234 ENSG00000277739 124908388 LOC124908388
## 235 ENSG00000277739 124908389 LOC124908389
## 236 ENSG00000277739 124908390 LOC124908390
## 237 ENSG00000277739 124908391 LOC124908391
## 238 ENSG00000277739 124908392 LOC124908392
## 239 ENSG00000277739 124908393 LOC124908393
## 240 ENSG00000277739 124908474 LOC124908474
## 241 ENSG00000277739 124908494 LOC124908494
## 242 ENSG00000277739 124908504 LOC124908504
## 243 ENSG00000277739 124908512 LOC124908512
## 244 ENSG00000277739 124908513 LOC124908513
## 245 ENSG00000277739 124908514 LOC124908514
## 246 ENSG00000277739 124908515 LOC124908515
## 247 ENSG00000277739 124908516 LOC124908516
## 248 ENSG00000277739 124908517 LOC124908517
## 249 ENSG00000277739 124908518 LOC124908518
## 250 ENSG00000277739 124908519 LOC124908519
## 251 ENSG00000277739 124908520 LOC124908520
## 252 ENSG00000277739 124908521 LOC124908521
## 253 ENSG00000277739 124908522 LOC124908522
## 254 ENSG00000277739 124908523 LOC124908523
## 255 ENSG00000277739 124908524 LOC124908524
## 256 ENSG00000277739 124908525 LOC124908525
## 257 ENSG00000277739 124908527 LOC124908527
## 258 ENSG00000250328 153163 MGC32805
## 259 ENSG00000205444 497048 KU-MEL-3
## 260 ENSG00000224609 729467 HSD52
## 261 ENSG00000227908 441072 IL6ST-DT
## 262 ENSG00000248858 441369 FLJ46284
## 263 ENSG00000280278 146512 FLJ30679
## 264 ENSG00000246731 85001 MGC16275
## 265 ENSG00000279891 401105 FLJ42393
## 266 ENSG00000267216 108903150 ZNF8-ERVK3-1
## GENENAME
## 1 heart tissue-associated transcript 17
## 2 uncharacterized LOC100652791
## 3 MAGEA10-MAGEA5 readthrough
## 4 uncharacterized LOC79857
## 5 DiGeorge syndrome critical region gene 5
## 6 long intergenic non-protein coding RNA 506
## 7 ATF7-NPFF readthrough
## 8 long intergenic non-protein coding RNA 1451
## 9 C12orf75 antisense RNA 1
## 10 long intergenic non-protein coding RNA 540
## 11 long intergenic non-protein coding RNA 1012
## 12 FOSL2 antisense RNA 1
## 13 thymosin beta 15B
## 14 thymosin beta 15C
## 15 uncharacterized LOC79150
## 16 uncharacterized LOC124901588
## 17 STAT1 regulated ILF2 complex interacting lncRNA
## 18 TFAP2A antisense RNA 2
## 19 long intergenic non-protein coding RNA 3022
## 20 PDXDC2P-NPIPB14P readthrough, transcribed pseudogene
## 21 telomerase RNA component
## 22 SPEN antisense RNA 1
## 23 uncharacterized LOC127814295
## 24 keratoconus gene 6
## 25 PTGES2 antisense RNA 1 (head to head)
## 26 RAET1E antisense RNA 1
## 27 uncharacterized LOC648691
## 28 RNA component of 7SK nuclear ribonucleoprotein
## 29 long intergenic non-protein coding RNA 216
## 30 PPP3CA divergent transcript
## 31 LYRM4 antisense RNA 1
## 32 matrin 3
## 33 surfactant associated 3
## 34 PRICKLE2 antisense RNA 1
## 35 KCNK4-CATSPERZ readthrough (NMD candidate)
## 36 uncharacterized LOC100192386
## 37 BMS1P4-AGAP5 readthrough
## 38 BMS1 pseudogene 4
## 39 uncharacterized LOC651430
## 40 uncharacterized LOC26102
## 41 TMEM105 long non-coding RNA
## 42 SLC9A3 3' UTR overlapping transcript 1
## 43 ATP6AP1 divergent transcript
## 44 ANAPC1 pseudogene 2
## 45 uncharacterized FLJ36000
## 46 HLA complex P5B
## 47 long intergenic non-protein coding RNA 3011
## 48 extracellular leucine rich repeat and fibronectin type III domain containing 2
## 49 PDGFA divergent transcript
## 50 RNA, 5.8S ribosomal pseudogene 10
## 51 5.8S ribosomal RNA
## 52 5.8S ribosomal RNA
## 53 5.8S ribosomal RNA
## 54 5.8S ribosomal RNA
## 55 5.8S ribosomal RNA
## 56 5.8S ribosomal RNA
## 57 5.8S ribosomal RNA
## 58 5.8S ribosomal RNA
## 59 5.8S ribosomal RNA
## 60 5.8S ribosomal RNA
## 61 5.8S ribosomal RNA
## 62 5.8S ribosomal RNA
## 63 5.8S ribosomal RNA
## 64 5.8S ribosomal RNA
## 65 5.8S ribosomal RNA
## 66 5.8S ribosomal RNA
## 67 5.8S ribosomal RNA
## 68 5.8S ribosomal RNA
## 69 5.8S ribosomal RNA
## 70 5.8S ribosomal RNA
## 71 5.8S ribosomal RNA
## 72 5.8S ribosomal RNA
## 73 5.8S ribosomal RNA
## 74 5.8S ribosomal RNA
## 75 5.8S ribosomal RNA
## 76 5.8S ribosomal RNA
## 77 5.8S ribosomal RNA
## 78 5.8S ribosomal RNA
## 79 5.8S ribosomal RNA
## 80 5.8S ribosomal RNA
## 81 5.8S ribosomal RNA
## 82 5.8S ribosomal RNA
## 83 5.8S ribosomal RNA
## 84 5.8S ribosomal RNA
## 85 5.8S ribosomal RNA
## 86 5.8S ribosomal RNA
## 87 5.8S ribosomal RNA
## 88 5.8S ribosomal RNA
## 89 5.8S ribosomal RNA
## 90 5.8S ribosomal RNA
## 91 5.8S ribosomal RNA
## 92 5.8S ribosomal RNA
## 93 5.8S ribosomal RNA
## 94 5.8S ribosomal RNA
## 95 5.8S ribosomal RNA
## 96 5.8S ribosomal RNA
## 97 5.8S ribosomal RNA
## 98 5.8S ribosomal RNA
## 99 5.8S ribosomal RNA
## 100 5.8S ribosomal RNA
## 101 5.8S ribosomal RNA
## 102 5.8S ribosomal RNA
## 103 5.8S ribosomal RNA
## 104 5.8S ribosomal RNA
## 105 5.8S ribosomal RNA
## 106 5.8S ribosomal RNA
## 107 5.8S ribosomal RNA
## 108 5.8S ribosomal RNA
## 109 5.8S ribosomal RNA
## 110 5.8S ribosomal RNA
## 111 5.8S ribosomal RNA
## 112 5.8S ribosomal RNA
## 113 5.8S ribosomal RNA
## 114 5.8S ribosomal RNA
## 115 5.8S ribosomal RNA
## 116 5.8S ribosomal RNA
## 117 5.8S ribosomal RNA
## 118 5.8S ribosomal RNA
## 119 5.8S ribosomal RNA
## 120 5.8S ribosomal RNA
## 121 5.8S ribosomal RNA
## 122 5.8S ribosomal RNA
## 123 5.8S ribosomal RNA
## 124 5.8S ribosomal RNA
## 125 5.8S ribosomal RNA
## 126 5.8S ribosomal RNA
## 127 5.8S ribosomal RNA
## 128 5.8S ribosomal RNA
## 129 5.8S ribosomal RNA
## 130 5.8S ribosomal RNA
## 131 5.8S ribosomal RNA
## 132 5.8S ribosomal RNA
## 133 5.8S ribosomal RNA
## 134 5.8S ribosomal RNA
## 135 5.8S ribosomal RNA
## 136 5.8S ribosomal RNA
## 137 5.8S ribosomal RNA
## 138 5.8S ribosomal RNA
## 139 5.8S ribosomal RNA
## 140 5.8S ribosomal RNA
## 141 5.8S ribosomal RNA
## 142 5.8S ribosomal RNA
## 143 5.8S ribosomal RNA
## 144 5.8S ribosomal RNA
## 145 5.8S ribosomal RNA
## 146 5.8S ribosomal RNA
## 147 5.8S ribosomal RNA
## 148 5.8S ribosomal RNA
## 149 5.8S ribosomal RNA
## 150 5.8S ribosomal RNA
## 151 5.8S ribosomal RNA
## 152 5.8S ribosomal RNA
## 153 5.8S ribosomal RNA
## 154 5.8S ribosomal RNA
## 155 5.8S ribosomal RNA
## 156 5.8S ribosomal RNA
## 157 5.8S ribosomal RNA
## 158 5.8S ribosomal RNA
## 159 5.8S ribosomal RNA
## 160 5.8S ribosomal RNA
## 161 5.8S ribosomal RNA
## 162 5.8S ribosomal RNA
## 163 5.8S ribosomal RNA
## 164 5.8S ribosomal RNA
## 165 5.8S ribosomal RNA
## 166 5.8S ribosomal RNA
## 167 5.8S ribosomal RNA
## 168 5.8S ribosomal RNA
## 169 5.8S ribosomal RNA
## 170 5.8S ribosomal RNA
## 171 5.8S ribosomal RNA
## 172 5.8S ribosomal RNA
## 173 5.8S ribosomal RNA
## 174 5.8S ribosomal RNA
## 175 5.8S ribosomal RNA
## 176 5.8S ribosomal RNA
## 177 5.8S ribosomal RNA
## 178 5.8S ribosomal RNA
## 179 5.8S ribosomal RNA
## 180 5.8S ribosomal RNA
## 181 5.8S ribosomal RNA
## 182 5.8S ribosomal RNA
## 183 5.8S ribosomal RNA
## 184 5.8S ribosomal RNA
## 185 5.8S ribosomal RNA
## 186 5.8S ribosomal RNA
## 187 5.8S ribosomal RNA
## 188 5.8S ribosomal RNA
## 189 5.8S ribosomal RNA
## 190 5.8S ribosomal RNA
## 191 5.8S ribosomal RNA
## 192 5.8S ribosomal RNA
## 193 5.8S ribosomal RNA
## 194 5.8S ribosomal RNA
## 195 5.8S ribosomal RNA
## 196 5.8S ribosomal RNA
## 197 5.8S ribosomal RNA
## 198 5.8S ribosomal RNA
## 199 5.8S ribosomal RNA
## 200 5.8S ribosomal RNA
## 201 5.8S ribosomal RNA
## 202 5.8S ribosomal RNA
## 203 5.8S ribosomal RNA
## 204 5.8S ribosomal RNA
## 205 5.8S ribosomal RNA
## 206 5.8S ribosomal RNA
## 207 5.8S ribosomal RNA
## 208 5.8S ribosomal RNA
## 209 5.8S ribosomal RNA
## 210 5.8S ribosomal RNA
## 211 5.8S ribosomal RNA
## 212 5.8S ribosomal RNA
## 213 5.8S ribosomal RNA
## 214 5.8S ribosomal RNA
## 215 5.8S ribosomal RNA
## 216 5.8S ribosomal RNA
## 217 5.8S ribosomal RNA
## 218 5.8S ribosomal RNA
## 219 5.8S ribosomal RNA
## 220 5.8S ribosomal RNA
## 221 5.8S ribosomal RNA
## 222 5.8S ribosomal RNA
## 223 5.8S ribosomal RNA
## 224 5.8S ribosomal RNA
## 225 5.8S ribosomal RNA
## 226 5.8S ribosomal RNA
## 227 5.8S ribosomal RNA
## 228 5.8S ribosomal RNA
## 229 5.8S ribosomal RNA
## 230 5.8S ribosomal RNA
## 231 5.8S ribosomal RNA
## 232 5.8S ribosomal RNA
## 233 5.8S ribosomal RNA
## 234 5.8S ribosomal RNA
## 235 5.8S ribosomal RNA
## 236 5.8S ribosomal RNA
## 237 5.8S ribosomal RNA
## 238 5.8S ribosomal RNA
## 239 5.8S ribosomal RNA
## 240 5.8S ribosomal RNA
## 241 5.8S ribosomal RNA
## 242 5.8S ribosomal RNA
## 243 5.8S ribosomal RNA
## 244 5.8S ribosomal RNA
## 245 5.8S ribosomal RNA
## 246 5.8S ribosomal RNA
## 247 5.8S ribosomal RNA
## 248 5.8S ribosomal RNA
## 249 5.8S ribosomal RNA
## 250 5.8S ribosomal RNA
## 251 5.8S ribosomal RNA
## 252 5.8S ribosomal RNA
## 253 5.8S ribosomal RNA
## 254 5.8S ribosomal RNA
## 255 5.8S ribosomal RNA
## 256 5.8S ribosomal RNA
## 257 5.8S ribosomal RNA
## 258 uncharacterized LOC153163
## 259 uncharacterized LOC497048
## 260 uncharacterized LOC729467
## 261 IL6ST divergent transcript
## 262 uncharacterized LOC441369
## 263 uncharacterized protein FLJ30679
## 264 uncharacterized protein MGC16275
## 265 uncharacterized LOC401105
## 266 ZNF8-ERVK3-1 readthrough (NMD candidate)
Por último, foi realizada a seleção de atributos para o dataset considerado para machine learning, através do método de Recursive Feature Elimination. Este algoritmo foi implementado com uma estimação do erro correspondente a validação cruzada 10 folds.
Através do argumento “sizes”, foi dado ao algoritmo o tamanho das amostragens de variáveis a testar. Foi então determinado que dos \(100\) genes fornecidos, \(80\) permitiam uma melhor precisão do algoritmo.
A análise das designações destes genes revelem-nos, consistentemente, um conjunto de genes predominantemente ligações a funções relacionadas com a membrana celular, o que é consistente com as análises anteriores.
Indo de encontro aos objetivos deste trabalho, realizamos uma análise sobre a expressão diferencial de um conjunto de linhagens cancerígenas sobre a resposta a um dado fármaco não oncológico com potencial anti-cancerígeno.
Os datasets usados para este efeito foram aqueles anteriormente cruzados correspondendo ao sub_drug_response e sub_raw_counts.
##Preparar para transpor dados de expressão/Reservar informação sobre os genes
sub_drug_response_2 <- sub_drug_response %>% remove_rownames %>% column_to_rownames(var="DepMap_ID")
# We estimate the variance for each row in the logcounts matrix
var_drugs <- apply(t(sub_drug_response_2), 1, var)
# Get the gene names for the top 500 most variable drugs
select_drugs <- names(sort(var_drugs, decreasing=TRUE))[1:500]
highly_variable_drugs <- sub_drug_response_2[, select_drugs]Numa primeira instância procuraram-se os \(500\) fármacos dentro do dataset sub_drug_response que possuiam maior variabilidade, dada pela sua variância, e estes foram reprentados através de um heatmap juntamente com as linhagens celulares. O clustering hierárquico foi efetuado com recurso a distância euclideana e com complete linkage.
#Heatmap for the drugs
## Get some nicer colors
mypalette <- brewer.pal(11,"RdYlBu")
morecols <- colorRampPalette(mypalette)
#Heatmap com clustering hierarquico com distancia euclideana e complete linkage
heatmap.2(t(highly_variable_drugs), col=rev(morecols(50)), trace="none", main=" 500 most variable drugs across lineages", scale="row")Neste heatmap é observável a presença de dois grandes clusters nas amostras, em que as linhagens agrupadas à esquerda são menos impactadas por parte dos fármcaos considerados, enquanto que no cluster da direita existe um efeito tendencionalmente maior por parte desses mesmos fármacos.
É possível também observar que o cluster de fármacos mais inferior é aquele que possui um efeito mais elevado sobre as linhagens celulares, particularmente no cluster de linhagens mais à direira.
Isto é um testemunho para as potencialidades anti-cancerígenas destes fármacos.
Desta forma, o fármaco com maior variabilidade foi selecionado para se efetuar uma análise de expressão diferencial, de forma a encontrar o conjunto de dados de expressão genética que podia ser usado para construir um modelo preditivo para a ação do mesmo.
#Get the most variable drug
#select_drug <- names(sort(var_drugs, decreasing=TRUE))[1:2]
highly_variable_drug <- sub_drug_response_2[, select_drugs[1]]
descr(highly_variable_drug)## Descriptive Statistics
## highly_variable_drug
## N: 559
##
## highly_variable_drug
## ----------------- ----------------------
## Mean -0.99
## Std.Dev 1.64
## Min -5.23
## Q1 -2.29
## Median -1.01
## Q3 0.30
## Max 2.91
## MAD 1.93
## IQR 2.59
## CV -1.65
## Skewness -0.16
## SE.Skewness 0.10
## Kurtosis -0.58
## N.Valid 559.00
## N 559.00
## Pct.Valid 100.00
#Fazer a discritização de droga em 2 níveis : Low e high
set.seed(16718)
drug <- discretize(highly_variable_drug, method = "cluster", breaks = 2, labels = c("Low", "High"))
drug <- discretize(highly_variable_drug, method = "cluster", breaks = 2, labels = c("Low", "High"))
summary(drug)## Low High
## 304 255
box_drug = as.data.frame(cbind(highly_variable_drug, drug))
box_drug$drug<- factor(box_drug$drug, labels = c("Low", "High"))
#Box plot - types
p<-ggboxplot(box_drug,x = "drug", y = "highly_variable_drug",
color = "drug", palette = c("#00AFBB", "#E7B800"),
ylab = "Efeito do fármaco", xlab = "Classes")
ggpar(p , main = "Simvastatina Discreta Vs Contínua")O fármaco selecionado corresponde à simvastatina, que é um fármaco pertencente à classe das estatinas, conhecidas por serem usadas com o afim de diminuir o risco de doenças cardiovasculares e regular níveis anormais de lípidos no sangue, nomeadamente diminuir low density lipoprotein (LDL) e aumentar high density lipoprotein (HDL). Esta dimininução ocorre devido à inibição de produção endógena de colesterol no fígado.
Os dados correspondentes a este fármaco foram discretizados utilizando a função discretize do package arules. O método utilizado corresponde ao clustering fornecendo o número que se desejava obter de classes, dada a natureza normalizada dos dados.
A separação destes dados é claramente visível através do boxplot construído, apresentando estes médias e distribuições diferentes.
Partindo do vetor contendo a variável fatorial “drug”, este foi utilizado como metadado para uma análise de expressão diferencial sobre o dataset sub_raw_counts. O objetivo era verificar os genes que sem encontravam mais diferencialmente expressos perante uma baixa ação da simvastatina (“Low”) e uma alta ação da mesma (“High”). Esta pipeline é igual à efetuada anteriormente e como tal omitiu-se a parte gráfica, retendo-se o essencial à interpretação dos resultados.
#Preparar para transpor dados de expressão/Reservar informações sobre os genes
sub_meta_expression <- sub_raw_counts %>% remove_rownames %>% column_to_rownames(var="DepMap_ID")
#Ordenar os id das linhagens
sub_meta_expression_ordered <- sub_meta_expression[ order(row.names(sub_meta_expression)), ]
#Transpor a matrix de expressão
sub_exp_matrix <- t(sub_meta_expression_ordered)
#Anotações
ensembl_ids <- sub("\\).*", "", sub(".*\\(", "", row.names(sub_exp_matrix)))
row.names(sub_exp_matrix) = ensembl_ids
ann <- select(org.Hs.eg.db, keys=ensembl_ids, keytype='ENSEMBL', columns=c('ENTREZID', "ENSEMBL", "SYMBOL", "GENENAME"))## 'select()' returned 1:many mapping between keys and columns
# Remove duplicated rows based on Ensembl_id
ann <- ann %>% distinct(ENSEMBL, .keep_all = TRUE)
#Lista de genes sem anotação
noann<-subset(ann, is.na(ann$ENTREZID))
#Remover genes sem anotação da matrix de expressao
row.names(sub_exp_matrix) <- ensembl_ids
sub_exp_matrix <- sub_exp_matrix[!(rownames(sub_exp_matrix) %in% noann$ENSEMBL), ]
#Remover genes da dataframe da anotação sem anotação
ann <- ann[!(ann$ENSEMBL %in% noann$ENSEMBL), ]
#Carregar no EdgeR
y_2 <- DGEList(counts = sub_exp_matrix)
#Carregar anotação dos genes
y_2$genes <- ann
#Design for mutation types
design_2 = model.matrix(~0+drug, data = y_2$samples)
colnames(design_2) <- levels(drug)
#Make contrasts
contrast <- makeContrasts(Low-High, levels=design_2)
keep <- filterByExpr(y_2, design_2)
y_2 <- y_2[keep, , keep.lib.sizes=FALSE]
#Normalization for composition bias
y_2 <- calcNormFactors(y_2)
#Start limma voom pipeline
par(mfrow=c(1,1))
v_2 <- voom(y_2, design_2 ,plot = F)
#Limma Trend
fit_2 <- lmFit(v_2, design_2)
fit_2.cont <- contrasts.fit(fit_2, contrast)
fit_2.cont <- eBayes(fit_2.cont)
#Testing relative to a threshold - TREAT
fit_2.treat <- treat(fit_2.cont, lfc=log2(1.2))
res_2.treat <- decideTests(fit_2.treat)
summary(res_2.treat)## Low - High
## Down 2
## NotSig 31
## Up 1
#GO enrichment using goana on Treat results
go <- goana(fit_2.treat, coef="Low - High", geneid = fit_2.treat$genes$ENTREZID, species = "Hs")
a = topGO(go, n=10)Após a análise TREAT, verificamos que na totalidade temos \(593\) genes diferencialmente expressos, dividindo-se estes em \(378\) sub expressos e \(215\) sobre expressos.
A análise das ontologias genéticas deste conjunto revela que, perante uma ação elevada da simvastatina quando comparada com uma ação baixa, observamos sub expressão de genes relacionados com a diferenciação e desenvolvimento das células do epitélio e da epiderme. Estes dados estão condizentes com a literatura que indicam que a ação da simvastatina possui um efeito desruptivo sobre os tecidos epiteliais, principalmente dos tumorais.
Simultaneamente temos sobre expressão de genes relacionados com a matriz extracelular, a angiogénese e a migração celular. Este padrão de expressão é notoriamente oposto àquele encontrado nas análises anteriores quando comparavamos linhagens com um número alto e baixo de mutações. Desta forma, observamos que a ação da simvastatina leva a uma expressão diferencial oposta à das linhagens com um número elevado de mutações, ou seja, tendem para uma carcinogénese mais elevada. Isto leva-nos a concluir que o efeito anti-cancerígeno é causado pela retardação da progressão tumoral provocada pela simvastatina e verificada através destes resultados.
De forma a realizar as análises multivaradas foi necessário construir um dataframe que as tornasse possíveis. Como tal, foram seleciondos a partir da análise diferencial, sobre a ação da simvastatina, os dados de expressão dos \(100\) genes mais diferencialmente expressos.
#Get differentially expressed genes for the drugs
drugs_diff = topTreat(fit.treat, coef=1, number=100)
#Filter the expression matrix to consider these genes
indexes = which(rownames(sub_exp_matrix)%in%rownames(drugs_diff))
exp_drugs = sub_exp_matrix[indexes,]
logcounts_drug <- cpm(exp_drugs,log=TRUE)De forma a permitir a análise destes dados, a matriz de contagens cruas foi normalizada, para contagens por milhão, e logaritmizada.
mypalette <- brewer.pal(11,"RdYlBu")
morecols <- colorRampPalette(mypalette)
col.cell <- c("darkslategray1", "coral")[drug]
heatmap.2(logcounts_drug,col=rev(morecols(50)),trace="none", main=" 100 genes differencially expressed for simvastatin",ColSideColors=col.cell,scale="row")
legend(-0.1, -0.125, legend=c("Low", "High"), fill=c("darkslategray1", "coral"), xpd = T)Foi construido um heatmap de forma a relacionar o clustering hiérarquico entre os genes recolhidos na amostra anterior e as linhagens cancerígenas em estudo. Para a construção de ambos os endogramas foi utilizada uma matriz de distâncias euclidianas e o algoritmo de agrupamento utilizado foi complete linkage.
Observa-se que relativamente às linhagens existem nitidamente dois grupos que possuem uma expressão genética oposta. É possível também observar que o grupo mais à esquerda encontra-se enriquecido com linhagens com um baixo efeito da simvastatina enquanto que no grupo mais à direita se verifica o oposto.
Relativamente ao agrupamento dos genes, verificamos que, pelos padrões de expressão, ocorrem 4 grupos com um padrão de expressão “elevada/baixa/elevada/baixa” no grupo de linhagens mais à esquerda, e o padrão contrário no grupo mais à direita. Estes resultados demonstram um claro efeito da simvastatina na expressão diferencial destes genes e a forma que estes se encontram expressos nas linhagens cancerígenas.
res.pca <- PCA(t(logcounts_drug), scale.unit = F, graph = F)
eig.val <- get_eigenvalue(res.pca)
eig.val[1:10,]## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 15.333521 11.446143 11.44614
## Dim.2 10.277596 7.672004 19.11815
## Dim.3 8.920900 6.659259 25.77741
## Dim.4 7.095131 5.296363 31.07377
## Dim.5 6.597439 4.924846 35.99862
## Dim.6 5.734336 4.280558 40.27917
## Dim.7 4.743024 3.540565 43.81974
## Dim.8 4.348287 3.245902 47.06564
## Dim.9 3.878163 2.894965 49.96061
## Dim.10 3.456594 2.580273 52.54088
#Number of dimensions until we reach 90% cumulative variance
i = 1
while ( eig.val[i,3] < 90 ) i = i + 1
i## [1] 37
fviz_famd_ind(res.pca, geom = c("point"), col.ind = "cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
palette = "rainbow", addEllipses = FALSE, ellipse.type = "confidence",
ggtheme = theme_minimal(), repel = TRUE, labels = F) fviz_famd_ind(res.pca, geom = c("point"),
habillage = drug, # color by groups
palette = c("rainbow"),
addEllipses = FALSE, ellipse.type = "confidence",
repel = TRUE, invisible = "quali.var", labels = FALSE )Da análise de componentes principais resultou que as primeiras 3 dimensões representam cumulativamente \(69.1\%\) da variação total do dataset, sendo que a primeira representa \(60.9\%\) e a segunda representa \(5\%\).
Dos componentes gerados pela análise, são necessários reter \(32\) de forma a, cumulativamente, agregar mais de \(90\%\) da variação total do dataset.
Existe uma boa dispersão das linhagens/indivíduos ao longo da primeira dimensão, existindo um número reduzido de indivíduos com uma baixa qualidade de representação (“cos2”) no mapa fatorial apresentado. Observa-se ainda que as linhagens distribuidas na vertente positiva do eixo das abscissas (primeiro componente) encontram-se também dispersas ao longo do eixo das ordenadas (segundo componente).
Contudo, quando sobrepomos as linhagens distribuidas ao longo do mapa fatorial com a classificação da ação da simvastatina sobre as mesmas (“Low” e “High”), temos que não ocorre uma separação clara dos dois grupos. Apesar de haver uma tendência para linhagens classifcadas como “High” se apresentarem ao longo do quarto quadrante, verifica-se uma mistura entre linhagens classifcadas como “Low” e outras como “High” ao longo de todo o mapa.
kmm_drugs <- kmeans(t(logcounts_drug), 2)
col.cell <- c("darkslategray1","coral")[drug]
col.cell_Kmm <- c("darkslategray1", "coral")[kmm_drugs$cluster]
plot(res.pca$ind$coord[, 1], res.pca$ind$coord[, 2], col = col.cell_Kmm, pch = 16, xlab = "PC1", ylab = "PC2", main ="Map of predicted clusters")
legend(35.5, 15, legend=c("1", "2"),fill=c("darkslategray1", "coral"), xpd = T)plot(res.pca$ind$coord[, 1], res.pca$ind$coord[, 2], col = col.cell, pch = 16, xlab = "PC1", ylab = "PC2", main ="Map of observed data")
legend(32, 15, legend=c("Low", "High"),fill=c("darkslategray1","coral"), xpd = T)De forma a efetuar um k-means clustering sobre o dataset afim de encontrar os clusters teóricos, foi construído um silhouette plot para verificar o número ótimo de clusters a utilizar, tendo-se optado por \(2\) clusters.
De seguida, foi efetuado o clustering em si tendo resultado em 2 grupos que se separam uniformemente ao longo do primeiro componente.
A comparação destes clusters com aqueles obtidos pela sobreposição da informação dos grupos reforça a conclusão anterior da má separação das linhagens por esta característica ao longo do mapa fatorial.
Mediante os resultados antes obtidos, propusemo-nos a construir um modelo de machine learning para efetuar a previsão da ação da simvastatina sobre as linhagens celulares estando isto representado na classificação das linhagens como tendo uma baixa ação (“Low”) ou uma alta ação (“High”) da simvastatina. Foram usados \(100\) genes preditores provenientes da expressão diferencial, juntamente com \(559\) linhagens cancerígenas.
Para tal foram testadas 5 frameworks: “Neural Networks”, “Random Forest”, “Decision Trees”, “K Nearest Neighbors” e “Naïve Bayes”.
Em todos os modelos foi utilizada uma estimação do erro corresponde a validação cruzada com 10 folds repetida 5 vezes, aquando da sua construção. De forma a tornar estes resultados replicáveis, foi invocada uma seed de valor “16718”.
#seed para ser sempre igual
set.seed(16718)
#repeated cross validation
cv.control = trainControl('repeatedcv', number = 10, repeats = 5)
#dataframe ML
ml_drug <- as.data.frame(cbind(drug = drug, t(logcounts_drug)))
ml_drug$drug = as.factor(ml_drug$drug)#Neural Networks -- Classification, Regression
set.seed(16718)
drug_nnet_cv = train(drug~., data = ml_drug, method = "nnet", tuneLenght=10, trControl=cv.control)## Neural Network
##
## 559 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 503, 503, 504, 503, 503, 503, ...
## Resampling results across tuning parameters:
##
## size decay Accuracy Kappa
## 1 0e+00 0.5449084 0.009899247
## 1 1e-04 0.5485051 0.022458486
## 1 1e-01 0.5580341 0.108742827
## 3 0e+00 0.5498966 0.046067956
## 3 1e-04 0.5614037 0.070571012
## 3 1e-01 0.5478076 0.090615113
## 5 0e+00 0.5555522 0.074475495
## 5 1e-04 0.5661737 0.115268316
## 5 1e-01 0.5401786 0.074426251
##
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were size = 5 and decay = 1e-04.
Na construção do modelo por “Neural Networks” foi dado o argumento “tuneLenght = 10”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “size” 1 (número de unidades na camada intermédia) e a um “decay” (regularização para evitar sobreajustamento) de 0.1, possuindo o modelo uma precisão de aproximadamente \(0.62\).
#Random Forest -- Classification, Regression
set.seed(16718)
drug_rf_cv = train(drug~., data = ml_drug, method = "rf", tuneLenght=10, trControl=cv.control)
drug_rf_cv## Random Forest
##
## 559 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 503, 503, 504, 503, 503, 503, ...
## Resampling results across tuning parameters:
##
## mtry Accuracy Kappa
## 2 0.6206132 0.2192779
## 29 0.6214408 0.2283936
## 57 0.6181694 0.2254871
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 29.
Na construção do modelo por “Random Forest” foi dado o argumento “tuneLenght = 10”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “mtry” de 2 (número de variáveis randomizadamente amostradas como candidatas a cada ramificação), possuindo o modelo uma precisão de aproximadamente \(0.63\).
#Decision Trees -- Classification, Regression
set.seed(16718)
drug_tree_cv = train(drug~., data = ml_drug, method = "rpart", tuneGrid=expand.grid(.cp=0.2), trControl=cv.control)
drug_tree_cv## CART
##
## 559 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 503, 503, 504, 503, 503, 503, ...
## Resampling results:
##
## Accuracy Kappa
## 0.5423753 0.009984722
##
## Tuning parameter 'cp' was held constant at a value of 0.2
Na construção do modelo por “Decision Trees” foi dado o argumento “expand.grid = (.cp=0.2)”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “cp” a um valor constante de 0.2 (complexidade do parâmetro e dos valores de erro associados), possuindo o modelo uma precisão de aproximadamente \(0.58\).
#KNN -- Classification, Regression
set.seed(16718)
drug_knn_cv = train(drug~., data = ml_drug, method = "knn", tuneGrid = expand.grid(k = 1:10), trControl=cv.control)
drug_knn_cv## k-Nearest Neighbors
##
## 559 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 503, 503, 504, 503, 503, 503, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 1 0.5344545 0.06130112
## 2 0.5598836 0.11099581
## 3 0.5756454 0.13991052
## 4 0.5701590 0.12914153
## 5 0.5730431 0.13301312
## 6 0.5655609 0.11847582
## 7 0.5902075 0.16733811
## 8 0.5895057 0.16707989
## 9 0.5988877 0.18349349
## 10 0.6065363 0.19865884
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 10.
Na construção do modelo por “k Nearest Neighbours” foi dado o argumento “tuneLenght = expand.grid = (1:10)”, ou seja o número de vizinhos a ser implementados pelo algoritmo.
Obtivemos que os parâmetros selecionados correspondem a um “k” de 10 (número de vizinhos), possuindo o modelo uma precisão de aproximadamente \(0.62\).
#Naive Bayes -- Classification
set.seed(16718)
drug_nb_cv = train(drug~., data = ml_drug, method = "nb", trControl=cv.control)
drug_nb_cv## Naive Bayes
##
## 559 samples
## 57 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 503, 503, 504, 503, 503, 503, ...
## Resampling results across tuning parameters:
##
## usekernel Accuracy Kappa
## FALSE 0.6063691 0.2091375
## TRUE 0.6092545 0.2142813
##
## Tuning parameter 'fL' was held constant at a value of 0
## Tuning
## parameter 'adjust' was held constant at a value of 1
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were fL = 0, usekernel = TRUE and adjust
## = 1.
Na construção do modelo por “Naïve Bayes” foi dado o argumento “tuneLenght = 10”, correspondendo isto ao número combinações aleatórias de hiperparâmetros possíveis a utilizar pelo algoritmo na sua construção.
Obtivemos que os parâmetros selecionados correspondem a um “fL” de 0 (incorporação da suavização de Laplace), a ausência do uso de um “kernel” (uso de uma kernel density estimate) e um “adjust = 1” (ajuste da largura de banda da da kernel density), possuindo o modelo uma precisão de aproximadamente \(0.63\).
Após observação da precisão dos 5 modelos para a classificação das linhagens cancerígenas, selecionou-se o modelo obtido a partir do algoritmo de “Random Forest” como aquele com maior precisão entre os restantes, tomando esta o valor de \(63\%\).
Este valor é subótimo para a performance de um algoritmo de machine learning, contudo, pode ser melhorado com a adição de mais entradas de dados, ou com enriquecimento de genes ou de outras variáveis que permitam melhor classificar estas classes.
#Importância de variáveis
control <- rfeControl(functions=rfFuncs, method="cv", number=10)
results <- rfe(drug~., data = ml_drug, rfeControl=control, sizes=c(1:10,20,40,60,80,100))
results##
## Recursive feature selection
##
## Outer resampling method: Cross-Validated (10 fold)
##
## Resampling performance over subset size:
##
## Variables Accuracy Kappa AccuracySD KappaSD Selected
## 1 0.5222 0.02064 0.07936 0.1670
## 2 0.5380 0.04997 0.06805 0.1361
## 3 0.5435 0.06636 0.07422 0.1478
## 4 0.5576 0.09996 0.08757 0.1775
## 5 0.5503 0.08640 0.11177 0.2268
## 6 0.5867 0.15843 0.07149 0.1410
## 7 0.5814 0.14759 0.07530 0.1490
## 8 0.5883 0.16255 0.07313 0.1456
## 9 0.6045 0.19780 0.06366 0.1236
## 10 0.5957 0.18020 0.06835 0.1356
## 20 0.6117 0.20789 0.06242 0.1246
## 40 0.6189 0.22008 0.06424 0.1289
## 57 0.6312 0.24221 0.07442 0.1515 *
##
## The top 5 variables (out of 57):
## ENSG00000185332, ENSG00000250328, ENSG00000281706, ENSG00000269226, ENSG00000197180
important_genes <- predictors(results)
ann_imp <- select(org.Hs.eg.db,keys=important_genes,keytype='ENSEMBL', columns=c('ENTREZID', "ENSEMBL", "SYMBOL", "GENENAME"))## 'select()' returned 1:many mapping between keys and columns
## ENSEMBL ENTREZID SYMBOL
## 1 ENSG00000185332 284186 TMEM105
## 2 ENSG00000250328 153163 MGC32805
## 3 ENSG00000281706 100507173 LINC01012
## 4 ENSG00000269226 286527 TMSB15B
## 5 ENSG00000269226 122394733 TMSB15C
## 6 ENSG00000197180 158960 ATP6AP1-DT
## 7 ENSG00000283117 79150 MGC4859
## 8 ENSG00000283117 124901588 LOC124901588
## 9 ENSG00000279636 55451 LINC00216
## 10 ENSG00000241111 100652759 PRICKLE2-AS1
## 11 ENSG00000234520 101928036 HRAT17
## 12 ENSG00000267281 114108587 ATF7-NPFF
## 13 ENSG00000248599 441374 SLEAR
## 14 ENSG00000262075 26102 DKFZP434A062
## 15 ENSG00000253641 101929191 LINC03022
## 16 ENSG00000281392 100846978 LINC00506
## 17 ENSG00000243902 114794 ELFN2
## 18 ENSG00000268592 100652739 RAET1E-AS1
## 19 ENSG00000273032 26220 DGCR5
## 20 ENSG00000257069 106780802 KCNK4-CATSPERZ
## 21 ENSG00000280278 146512 FLJ30679
## 22 ENSG00000196696 283970 PDXDC2P-NPIPB14P
## 23 ENSG00000267216 108903150 ZNF8-ERVK3-1
## 24 ENSG00000227908 441072 IL6ST-DT
## 25 ENSG00000205444 497048 KU-MEL-3
## 26 ENSG00000242288 113939925 BMS1P4-AGAP5
## 27 ENSG00000254531 90024 PPP3CA-DT
## 28 ENSG00000279141 401561 LINC01451
## 29 ENSG00000271816 729096 BMS1P4
## 30 ENSG00000232850 389791 PTGES2-AS1
## 31 ENSG00000281831 352990 HCP5B
## 32 ENSG00000272142 100129461 LYRM4-AS1
## 33 ENSG00000285278 109729173 TFAP2A-AS2
## 34 ENSG00000279943 651430 FLJ38576
## 35 ENSG00000275620 100192386 FLJ16779
## 36 ENSG00000232995 127814295 LOC127814295
## 37 ENSG00000179743 729614 SPEN-AS1
## 38 ENSG00000280987 9782 MATR3
## 39 ENSG00000223855 441307 PDGFA-DT
## 40 ENSG00000276399 284124 FLJ36000
## 41 ENSG00000276476 100506622 LINC00540
## 42 ENSG00000285793 285074 ANAPC1P2
## 43 ENSG00000257520 253970 SFTA3
## 44 ENSG00000188242 25845 SLC9A3-OT1
## 45 ENSG00000229951 403150 FOSL2-AS1
## 46 ENSG00000277739 109910384 RNA5-8SP10
## 47 ENSG00000277739 124907114 LOC124907114
## 48 ENSG00000277739 124907115 LOC124907115
## 49 ENSG00000277739 124907116 LOC124907116
## 50 ENSG00000277739 124907117 LOC124907117
## 51 ENSG00000277739 124907118 LOC124907118
## 52 ENSG00000277739 124907119 LOC124907119
## 53 ENSG00000277739 124907120 LOC124907120
## 54 ENSG00000277739 124907121 LOC124907121
## 55 ENSG00000277739 124907122 LOC124907122
## 56 ENSG00000277739 124907123 LOC124907123
## 57 ENSG00000277739 124907124 LOC124907124
## 58 ENSG00000277739 124907125 LOC124907125
## 59 ENSG00000277739 124907126 LOC124907126
## 60 ENSG00000277739 124907127 LOC124907127
## 61 ENSG00000277739 124907128 LOC124907128
## 62 ENSG00000277739 124907129 LOC124907129
## 63 ENSG00000277739 124907130 LOC124907130
## 64 ENSG00000277739 124907131 LOC124907131
## 65 ENSG00000277739 124907132 LOC124907132
## 66 ENSG00000277739 124907133 LOC124907133
## 67 ENSG00000277739 124907134 LOC124907134
## 68 ENSG00000277739 124907135 LOC124907135
## 69 ENSG00000277739 124907136 LOC124907136
## 70 ENSG00000277739 124907137 LOC124907137
## 71 ENSG00000277739 124907138 LOC124907138
## 72 ENSG00000277739 124907139 LOC124907139
## 73 ENSG00000277739 124907140 LOC124907140
## 74 ENSG00000277739 124907141 LOC124907141
## 75 ENSG00000277739 124907142 LOC124907142
## 76 ENSG00000277739 124907143 LOC124907143
## 77 ENSG00000277739 124907144 LOC124907144
## 78 ENSG00000277739 124907145 LOC124907145
## 79 ENSG00000277739 124907146 LOC124907146
## 80 ENSG00000277739 124907147 LOC124907147
## 81 ENSG00000277739 124907148 LOC124907148
## 82 ENSG00000277739 124907149 LOC124907149
## 83 ENSG00000277739 124907150 LOC124907150
## 84 ENSG00000277739 124907151 LOC124907151
## 85 ENSG00000277739 124907152 LOC124907152
## 86 ENSG00000277739 124907153 LOC124907153
## 87 ENSG00000277739 124907154 LOC124907154
## 88 ENSG00000277739 124907155 LOC124907155
## 89 ENSG00000277739 124907160 LOC124907160
## 90 ENSG00000277739 124907172 LOC124907172
## 91 ENSG00000277739 124907183 LOC124907183
## 92 ENSG00000277739 124907194 LOC124907194
## 93 ENSG00000277739 124907205 LOC124907205
## 94 ENSG00000277739 124907216 LOC124907216
## 95 ENSG00000277739 124907227 LOC124907227
## 96 ENSG00000277739 124907238 LOC124907238
## 97 ENSG00000277739 124907248 LOC124907248
## 98 ENSG00000277739 124907258 LOC124907258
## 99 ENSG00000277739 124907269 LOC124907269
## 100 ENSG00000277739 124907280 LOC124907280
## 101 ENSG00000277739 124907291 LOC124907291
## 102 ENSG00000277739 124907302 LOC124907302
## 103 ENSG00000277739 124907313 LOC124907313
## 104 ENSG00000277739 124907324 LOC124907324
## 105 ENSG00000277739 124907327 LOC124907327
## 106 ENSG00000277739 124907328 LOC124907328
## 107 ENSG00000277739 124907329 LOC124907329
## 108 ENSG00000277739 124907330 LOC124907330
## 109 ENSG00000277739 124907331 LOC124907331
## 110 ENSG00000277739 124907332 LOC124907332
## 111 ENSG00000277739 124907333 LOC124907333
## 112 ENSG00000277739 124907334 LOC124907334
## 113 ENSG00000277739 124907335 LOC124907335
## 114 ENSG00000277739 124907336 LOC124907336
## 115 ENSG00000277739 124907337 LOC124907337
## 116 ENSG00000277739 124907338 LOC124907338
## 117 ENSG00000277739 124907339 LOC124907339
## 118 ENSG00000277739 124907340 LOC124907340
## 119 ENSG00000277739 124907341 LOC124907341
## 120 ENSG00000277739 124907342 LOC124907342
## 121 ENSG00000277739 124907343 LOC124907343
## 122 ENSG00000277739 124907439 LOC124907439
## 123 ENSG00000277739 124907440 LOC124907440
## 124 ENSG00000277739 124907450 LOC124907450
## 125 ENSG00000277739 124907458 LOC124907458
## 126 ENSG00000277739 124907467 LOC124907467
## 127 ENSG00000277739 124907475 LOC124907475
## 128 ENSG00000277739 124907476 LOC124907476
## 129 ENSG00000277739 124907477 LOC124907477
## 130 ENSG00000277739 124907478 LOC124907478
## 131 ENSG00000277739 124907479 LOC124907479
## 132 ENSG00000277739 124907480 LOC124907480
## 133 ENSG00000277739 124907481 LOC124907481
## 134 ENSG00000277739 124907482 LOC124907482
## 135 ENSG00000277739 124907483 LOC124907483
## 136 ENSG00000277739 124907484 LOC124907484
## 137 ENSG00000277739 124907572 LOC124907572
## 138 ENSG00000277739 124907573 LOC124907573
## 139 ENSG00000277739 124907574 LOC124907574
## 140 ENSG00000277739 124907575 LOC124907575
## 141 ENSG00000277739 124907576 LOC124907576
## 142 ENSG00000277739 124907577 LOC124907577
## 143 ENSG00000277739 124907578 LOC124907578
## 144 ENSG00000277739 124907579 LOC124907579
## 145 ENSG00000277739 124907580 LOC124907580
## 146 ENSG00000277739 124907581 LOC124907581
## 147 ENSG00000277739 124907584 LOC124907584
## 148 ENSG00000277739 124907585 LOC124907585
## 149 ENSG00000277739 124907586 LOC124907586
## 150 ENSG00000277739 124907587 LOC124907587
## 151 ENSG00000277739 124907588 LOC124907588
## 152 ENSG00000277739 124907589 LOC124907589
## 153 ENSG00000277739 124907590 LOC124907590
## 154 ENSG00000277739 124907591 LOC124907591
## 155 ENSG00000277739 124907592 LOC124907592
## 156 ENSG00000277739 124907593 LOC124907593
## 157 ENSG00000277739 124907594 LOC124907594
## 158 ENSG00000277739 124907595 LOC124907595
## 159 ENSG00000277739 124907596 LOC124907596
## 160 ENSG00000277739 124907597 LOC124907597
## 161 ENSG00000277739 124907598 LOC124907598
## 162 ENSG00000277739 124907600 LOC124907600
## 163 ENSG00000277739 124907611 LOC124907611
## 164 ENSG00000277739 124907622 LOC124907622
## 165 ENSG00000277739 124907633 LOC124907633
## 166 ENSG00000277739 124907644 LOC124907644
## 167 ENSG00000277739 124907655 LOC124907655
## 168 ENSG00000277739 124907662 LOC124907662
## 169 ENSG00000277739 124907673 LOC124907673
## 170 ENSG00000277739 124907684 LOC124907684
## 171 ENSG00000277739 124907694 LOC124907694
## 172 ENSG00000277739 124907705 LOC124907705
## 173 ENSG00000277739 124907709 LOC124907709
## 174 ENSG00000277739 124907710 LOC124907710
## 175 ENSG00000277739 124907711 LOC124907711
## 176 ENSG00000277739 124907712 LOC124907712
## 177 ENSG00000277739 124907713 LOC124907713
## 178 ENSG00000277739 124907714 LOC124907714
## 179 ENSG00000277739 124907715 LOC124907715
## 180 ENSG00000277739 124907716 LOC124907716
## 181 ENSG00000277739 124907717 LOC124907717
## 182 ENSG00000277739 124907718 LOC124907718
## 183 ENSG00000277739 124907719 LOC124907719
## 184 ENSG00000277739 124907720 LOC124907720
## 185 ENSG00000277739 124907721 LOC124907721
## 186 ENSG00000277739 124908237 LOC124908237
## 187 ENSG00000277739 124908238 LOC124908238
## 188 ENSG00000277739 124908239 LOC124908239
## 189 ENSG00000277739 124908240 LOC124908240
## 190 ENSG00000277739 124908241 LOC124908241
## 191 ENSG00000277739 124908242 LOC124908242
## 192 ENSG00000277739 124908243 LOC124908243
## 193 ENSG00000277739 124908244 LOC124908244
## 194 ENSG00000277739 124908245 LOC124908245
## 195 ENSG00000277739 124908246 LOC124908246
## 196 ENSG00000277739 124908247 LOC124908247
## 197 ENSG00000277739 124908248 LOC124908248
## 198 ENSG00000277739 124908249 LOC124908249
## 199 ENSG00000277739 124908257 LOC124908257
## 200 ENSG00000277739 124908268 LOC124908268
## 201 ENSG00000277739 124908278 LOC124908278
## 202 ENSG00000277739 124908289 LOC124908289
## 203 ENSG00000277739 124908300 LOC124908300
## 204 ENSG00000277739 124908310 LOC124908310
## 205 ENSG00000277739 124908316 LOC124908316
## 206 ENSG00000277739 124908327 LOC124908327
## 207 ENSG00000277739 124908336 LOC124908336
## 208 ENSG00000277739 124908347 LOC124908347
## 209 ENSG00000277739 124908358 LOC124908358
## 210 ENSG00000277739 124908368 LOC124908368
## 211 ENSG00000277739 124908369 LOC124908369
## 212 ENSG00000277739 124908370 LOC124908370
## 213 ENSG00000277739 124908371 LOC124908371
## 214 ENSG00000277739 124908372 LOC124908372
## 215 ENSG00000277739 124908373 LOC124908373
## 216 ENSG00000277739 124908374 LOC124908374
## 217 ENSG00000277739 124908375 LOC124908375
## 218 ENSG00000277739 124908376 LOC124908376
## 219 ENSG00000277739 124908377 LOC124908377
## 220 ENSG00000277739 124908378 LOC124908378
## 221 ENSG00000277739 124908379 LOC124908379
## 222 ENSG00000277739 124908380 LOC124908380
## 223 ENSG00000277739 124908381 LOC124908381
## 224 ENSG00000277739 124908382 LOC124908382
## 225 ENSG00000277739 124908383 LOC124908383
## 226 ENSG00000277739 124908384 LOC124908384
## 227 ENSG00000277739 124908385 LOC124908385
## 228 ENSG00000277739 124908386 LOC124908386
## 229 ENSG00000277739 124908387 LOC124908387
## 230 ENSG00000277739 124908388 LOC124908388
## 231 ENSG00000277739 124908389 LOC124908389
## 232 ENSG00000277739 124908390 LOC124908390
## 233 ENSG00000277739 124908391 LOC124908391
## 234 ENSG00000277739 124908392 LOC124908392
## 235 ENSG00000277739 124908393 LOC124908393
## 236 ENSG00000277739 124908474 LOC124908474
## 237 ENSG00000277739 124908494 LOC124908494
## 238 ENSG00000277739 124908504 LOC124908504
## 239 ENSG00000277739 124908512 LOC124908512
## 240 ENSG00000277739 124908513 LOC124908513
## 241 ENSG00000277739 124908514 LOC124908514
## 242 ENSG00000277739 124908515 LOC124908515
## 243 ENSG00000277739 124908516 LOC124908516
## 244 ENSG00000277739 124908517 LOC124908517
## 245 ENSG00000277739 124908518 LOC124908518
## 246 ENSG00000277739 124908519 LOC124908519
## 247 ENSG00000277739 124908520 LOC124908520
## 248 ENSG00000277739 124908521 LOC124908521
## 249 ENSG00000277739 124908522 LOC124908522
## 250 ENSG00000277739 124908523 LOC124908523
## 251 ENSG00000277739 124908524 LOC124908524
## 252 ENSG00000277739 124908525 LOC124908525
## 253 ENSG00000277739 124908527 LOC124908527
## 254 ENSG00000237310 100289098 LINC03011
## 255 ENSG00000266560 100533997 LOC100533997
## 256 ENSG00000248858 441369 FLJ46284
## 257 ENSG00000277925 7012 TERC
## 258 ENSG00000224609 729467 HSD52
## 259 ENSG00000246731 85001 MGC16275
## 260 ENSG00000220891 648691 LL22NC03-63E9.3
## 261 ENSG00000177340 79857 FLJ13224
## 262 ENSG00000267313 641516 KC6
## 263 ENSG00000257642 105369954 C12orf75-AS1
## 264 ENSG00000279891 401105 FLJ42393
## 265 ENSG00000245857 100652791 GS1-24F4.2
## 266 ENSG00000202198 125050 RN7SK
## GENENAME
## 1 TMEM105 long non-coding RNA
## 2 uncharacterized LOC153163
## 3 long intergenic non-protein coding RNA 1012
## 4 thymosin beta 15B
## 5 thymosin beta 15C
## 6 ATP6AP1 divergent transcript
## 7 uncharacterized LOC79150
## 8 uncharacterized LOC124901588
## 9 long intergenic non-protein coding RNA 216
## 10 PRICKLE2 antisense RNA 1
## 11 heart tissue-associated transcript 17
## 12 ATF7-NPFF readthrough
## 13 STAT1 regulated ILF2 complex interacting lncRNA
## 14 uncharacterized LOC26102
## 15 long intergenic non-protein coding RNA 3022
## 16 long intergenic non-protein coding RNA 506
## 17 extracellular leucine rich repeat and fibronectin type III domain containing 2
## 18 RAET1E antisense RNA 1
## 19 DiGeorge syndrome critical region gene 5
## 20 KCNK4-CATSPERZ readthrough (NMD candidate)
## 21 uncharacterized protein FLJ30679
## 22 PDXDC2P-NPIPB14P readthrough, transcribed pseudogene
## 23 ZNF8-ERVK3-1 readthrough (NMD candidate)
## 24 IL6ST divergent transcript
## 25 uncharacterized LOC497048
## 26 BMS1P4-AGAP5 readthrough
## 27 PPP3CA divergent transcript
## 28 long intergenic non-protein coding RNA 1451
## 29 BMS1 pseudogene 4
## 30 PTGES2 antisense RNA 1 (head to head)
## 31 HLA complex P5B
## 32 LYRM4 antisense RNA 1
## 33 TFAP2A antisense RNA 2
## 34 uncharacterized LOC651430
## 35 uncharacterized LOC100192386
## 36 uncharacterized LOC127814295
## 37 SPEN antisense RNA 1
## 38 matrin 3
## 39 PDGFA divergent transcript
## 40 uncharacterized FLJ36000
## 41 long intergenic non-protein coding RNA 540
## 42 ANAPC1 pseudogene 2
## 43 surfactant associated 3
## 44 SLC9A3 3' UTR overlapping transcript 1
## 45 FOSL2 antisense RNA 1
## 46 RNA, 5.8S ribosomal pseudogene 10
## 47 5.8S ribosomal RNA
## 48 5.8S ribosomal RNA
## 49 5.8S ribosomal RNA
## 50 5.8S ribosomal RNA
## 51 5.8S ribosomal RNA
## 52 5.8S ribosomal RNA
## 53 5.8S ribosomal RNA
## 54 5.8S ribosomal RNA
## 55 5.8S ribosomal RNA
## 56 5.8S ribosomal RNA
## 57 5.8S ribosomal RNA
## 58 5.8S ribosomal RNA
## 59 5.8S ribosomal RNA
## 60 5.8S ribosomal RNA
## 61 5.8S ribosomal RNA
## 62 5.8S ribosomal RNA
## 63 5.8S ribosomal RNA
## 64 5.8S ribosomal RNA
## 65 5.8S ribosomal RNA
## 66 5.8S ribosomal RNA
## 67 5.8S ribosomal RNA
## 68 5.8S ribosomal RNA
## 69 5.8S ribosomal RNA
## 70 5.8S ribosomal RNA
## 71 5.8S ribosomal RNA
## 72 5.8S ribosomal RNA
## 73 5.8S ribosomal RNA
## 74 5.8S ribosomal RNA
## 75 5.8S ribosomal RNA
## 76 5.8S ribosomal RNA
## 77 5.8S ribosomal RNA
## 78 5.8S ribosomal RNA
## 79 5.8S ribosomal RNA
## 80 5.8S ribosomal RNA
## 81 5.8S ribosomal RNA
## 82 5.8S ribosomal RNA
## 83 5.8S ribosomal RNA
## 84 5.8S ribosomal RNA
## 85 5.8S ribosomal RNA
## 86 5.8S ribosomal RNA
## 87 5.8S ribosomal RNA
## 88 5.8S ribosomal RNA
## 89 5.8S ribosomal RNA
## 90 5.8S ribosomal RNA
## 91 5.8S ribosomal RNA
## 92 5.8S ribosomal RNA
## 93 5.8S ribosomal RNA
## 94 5.8S ribosomal RNA
## 95 5.8S ribosomal RNA
## 96 5.8S ribosomal RNA
## 97 5.8S ribosomal RNA
## 98 5.8S ribosomal RNA
## 99 5.8S ribosomal RNA
## 100 5.8S ribosomal RNA
## 101 5.8S ribosomal RNA
## 102 5.8S ribosomal RNA
## 103 5.8S ribosomal RNA
## 104 5.8S ribosomal RNA
## 105 5.8S ribosomal RNA
## 106 5.8S ribosomal RNA
## 107 5.8S ribosomal RNA
## 108 5.8S ribosomal RNA
## 109 5.8S ribosomal RNA
## 110 5.8S ribosomal RNA
## 111 5.8S ribosomal RNA
## 112 5.8S ribosomal RNA
## 113 5.8S ribosomal RNA
## 114 5.8S ribosomal RNA
## 115 5.8S ribosomal RNA
## 116 5.8S ribosomal RNA
## 117 5.8S ribosomal RNA
## 118 5.8S ribosomal RNA
## 119 5.8S ribosomal RNA
## 120 5.8S ribosomal RNA
## 121 5.8S ribosomal RNA
## 122 5.8S ribosomal RNA
## 123 5.8S ribosomal RNA
## 124 5.8S ribosomal RNA
## 125 5.8S ribosomal RNA
## 126 5.8S ribosomal RNA
## 127 5.8S ribosomal RNA
## 128 5.8S ribosomal RNA
## 129 5.8S ribosomal RNA
## 130 5.8S ribosomal RNA
## 131 5.8S ribosomal RNA
## 132 5.8S ribosomal RNA
## 133 5.8S ribosomal RNA
## 134 5.8S ribosomal RNA
## 135 5.8S ribosomal RNA
## 136 5.8S ribosomal RNA
## 137 5.8S ribosomal RNA
## 138 5.8S ribosomal RNA
## 139 5.8S ribosomal RNA
## 140 5.8S ribosomal RNA
## 141 5.8S ribosomal RNA
## 142 5.8S ribosomal RNA
## 143 5.8S ribosomal RNA
## 144 5.8S ribosomal RNA
## 145 5.8S ribosomal RNA
## 146 5.8S ribosomal RNA
## 147 5.8S ribosomal RNA
## 148 5.8S ribosomal RNA
## 149 5.8S ribosomal RNA
## 150 5.8S ribosomal RNA
## 151 5.8S ribosomal RNA
## 152 5.8S ribosomal RNA
## 153 5.8S ribosomal RNA
## 154 5.8S ribosomal RNA
## 155 5.8S ribosomal RNA
## 156 5.8S ribosomal RNA
## 157 5.8S ribosomal RNA
## 158 5.8S ribosomal RNA
## 159 5.8S ribosomal RNA
## 160 5.8S ribosomal RNA
## 161 5.8S ribosomal RNA
## 162 5.8S ribosomal RNA
## 163 5.8S ribosomal RNA
## 164 5.8S ribosomal RNA
## 165 5.8S ribosomal RNA
## 166 5.8S ribosomal RNA
## 167 5.8S ribosomal RNA
## 168 5.8S ribosomal RNA
## 169 5.8S ribosomal RNA
## 170 5.8S ribosomal RNA
## 171 5.8S ribosomal RNA
## 172 5.8S ribosomal RNA
## 173 5.8S ribosomal RNA
## 174 5.8S ribosomal RNA
## 175 5.8S ribosomal RNA
## 176 5.8S ribosomal RNA
## 177 5.8S ribosomal RNA
## 178 5.8S ribosomal RNA
## 179 5.8S ribosomal RNA
## 180 5.8S ribosomal RNA
## 181 5.8S ribosomal RNA
## 182 5.8S ribosomal RNA
## 183 5.8S ribosomal RNA
## 184 5.8S ribosomal RNA
## 185 5.8S ribosomal RNA
## 186 5.8S ribosomal RNA
## 187 5.8S ribosomal RNA
## 188 5.8S ribosomal RNA
## 189 5.8S ribosomal RNA
## 190 5.8S ribosomal RNA
## 191 5.8S ribosomal RNA
## 192 5.8S ribosomal RNA
## 193 5.8S ribosomal RNA
## 194 5.8S ribosomal RNA
## 195 5.8S ribosomal RNA
## 196 5.8S ribosomal RNA
## 197 5.8S ribosomal RNA
## 198 5.8S ribosomal RNA
## 199 5.8S ribosomal RNA
## 200 5.8S ribosomal RNA
## 201 5.8S ribosomal RNA
## 202 5.8S ribosomal RNA
## 203 5.8S ribosomal RNA
## 204 5.8S ribosomal RNA
## 205 5.8S ribosomal RNA
## 206 5.8S ribosomal RNA
## 207 5.8S ribosomal RNA
## 208 5.8S ribosomal RNA
## 209 5.8S ribosomal RNA
## 210 5.8S ribosomal RNA
## 211 5.8S ribosomal RNA
## 212 5.8S ribosomal RNA
## 213 5.8S ribosomal RNA
## 214 5.8S ribosomal RNA
## 215 5.8S ribosomal RNA
## 216 5.8S ribosomal RNA
## 217 5.8S ribosomal RNA
## 218 5.8S ribosomal RNA
## 219 5.8S ribosomal RNA
## 220 5.8S ribosomal RNA
## 221 5.8S ribosomal RNA
## 222 5.8S ribosomal RNA
## 223 5.8S ribosomal RNA
## 224 5.8S ribosomal RNA
## 225 5.8S ribosomal RNA
## 226 5.8S ribosomal RNA
## 227 5.8S ribosomal RNA
## 228 5.8S ribosomal RNA
## 229 5.8S ribosomal RNA
## 230 5.8S ribosomal RNA
## 231 5.8S ribosomal RNA
## 232 5.8S ribosomal RNA
## 233 5.8S ribosomal RNA
## 234 5.8S ribosomal RNA
## 235 5.8S ribosomal RNA
## 236 5.8S ribosomal RNA
## 237 5.8S ribosomal RNA
## 238 5.8S ribosomal RNA
## 239 5.8S ribosomal RNA
## 240 5.8S ribosomal RNA
## 241 5.8S ribosomal RNA
## 242 5.8S ribosomal RNA
## 243 5.8S ribosomal RNA
## 244 5.8S ribosomal RNA
## 245 5.8S ribosomal RNA
## 246 5.8S ribosomal RNA
## 247 5.8S ribosomal RNA
## 248 5.8S ribosomal RNA
## 249 5.8S ribosomal RNA
## 250 5.8S ribosomal RNA
## 251 5.8S ribosomal RNA
## 252 5.8S ribosomal RNA
## 253 5.8S ribosomal RNA
## 254 long intergenic non-protein coding RNA 3011
## 255 MAGEA10-MAGEA5 readthrough
## 256 uncharacterized LOC441369
## 257 telomerase RNA component
## 258 uncharacterized LOC729467
## 259 uncharacterized protein MGC16275
## 260 uncharacterized LOC648691
## 261 uncharacterized LOC79857
## 262 keratoconus gene 6
## 263 C12orf75 antisense RNA 1
## 264 uncharacterized LOC401105
## 265 uncharacterized LOC100652791
## 266 RNA component of 7SK nuclear ribonucleoprotein
Por último, foi realizada a seleção de atributos para o dataset considerado para machine learning, através do método de Recursive Feature Elimination. Este algoritmo foi implementado com uma estimação do erro correspondente a validação cruzada 10 folds.
Através do argumento “sizes”, foi dado ao algoritmo o tamanho das amostragens de variáveis a testar. Foi então determinado que dos \(100\) genes fornecidos, \(4\) permitiam uma melhor precisão do algoritmo.
A análise das designações destes genes revelam-nos, consistentemente, um conjunto de genes predominantemente ligados a funções relacionadas com a membrana celular e com tecidos epiteliais, o que é consistente com as análises anteriores.
Uma versão interativa destes gráficos, gerada com o package Glimma, encontra-se disponível em HTML em anexo.↩
Uma versão interativa destes gráficos, gerada com o package Glimma, encontra-se disponível em HTML em anexo.↩
Uma versão interativa destes gráficos, gerada com o package Glimma, encontra-se disponível em HTML em anexo.↩